← Back to posts

AIMO3: Reading the Top Solutions

· 6 min

AIMO3: Reading the Top Solutions

Open models, equal compute — so the contest became an engineering one

KAGGLE / AIMO3

AIMO3: читаем решения призёров

Открытые модели, одинаковые мощности — и снова инженеры в топе Кагла

KAGGLE / AIMO3

The writeups for AIMO3 are out — the Kaggle competition about building a system that solves olympiad math at the level of the international olympiad, using open-source models only. I read the top three and want to share what stood out.

Kaggle usually has a familiar shape: everyone works with more or less the same open models and the same public papers. This time the compute was equalized on top of that — a lot of it, 5 hours of H100s compute per submission per day, but the cap the same for everyone. So the real game wasn’t “who has the better model.” It was engineering.

The winner says this directly:

"A major observation was that inference engineering itself became a competitive advantage. The final system behaved less like a traditional language model and more like a coordinated reasoning engine."

As with agents, the model stops being the protagonist, and all the machinery around it takes over.

The second place: the one I’d hand to a student

The second-place writeup is the one I’d give to someone who wants to actually learn something. Every change is spelled out, and you can watch the reasoning stack up.

Improvements 1 and 2 are both about the system prompt — wording the instructions so the model behaves the way you want.

Improvement 3 is my favorite, because it’s small and the intuition is obvious once you see it: weight the tokens right before the answer more heavily. Their explanation:

"Improvement 3: Tail-Windowed Entropy. Both my version and base notebook use logprob entropy to measure how 'confident' a completion was, for use in the ensemble. But there's an important difference in what entropy is measured over. Parthenos (public): averages entropy over the full token stream. Mine: averages entropy only over the last 256 tokens (logprob_tail = 256)."

Improvements 4 through 6 are smaller plumbing: more robust parsing of the answer, and a slightly different rule for which answer the ensemble finally commits to.

Improvement 7 adds an even earlier stop. If the current best answer can no longer change no matter what comes next, there’s no reason to keep generating. Stop and save the compute.

The third place: betting everything on the prompt

Third place went the other way and put all its weight on the system prompt. The trick I liked: they built a small dataset — 60 hard problems, with correct and incorrect solutions from gpt-oss-120b — and then had a bigger, smarter model read the weaker model’s mistakes and suggest prompt fixes to steer it. A strong model tutoring a weaker one, but only through the prompt, never touching the weights.

What stays with me from all three is that none of the wins came from a secret model. They came from how the same open model was driven: where to spend tokens, when to stop, how to read its own confidence, and what to put in the prompt. The intelligence was on the table for everyone. The leverage was in the engineering.

Conclusion

Did it solve the original problem — did it bring open models closer to the frontier ones on hard math? In my view, no. The winners wrote engineering wrappers around gpt-oss-120b and solved 44 of 50 problems each. At first glance that doesn’t look bad, but if you follow third place’s framing and assume that of the 50 problems 35 are easy, 10 are medium, and 5 are real killers, then the winners most likely failed exactly on the killers — while the best frontier-lab models surely solve all of them.

Sources

Недавно появились разборы решений AIMO3 — соревнования на Kaggle про построение системы, которая решает олимпиадную математику уровня межнара, используя только открытые модели. Прочитал тройку лидеров и делюсь тем, что зацепило.

На Kaggle обычно картина знакомая: у всех есть одни и те же открытые модели и одни и те же публичные статьи. В этот раз ещё и уравняли вычислительные мощности — их было очень много, на одну посылку в день 5 часов compute на H100-ых, но потолок одинаковый для всех. Так что игра шла не про то, “у кого модель лучше”. Она шла про инженерию.

Победитель говорит об этом прямо:

"A major observation was that inference engineering itself became a competitive advantage. The final system behaved less like a traditional language model and more like a coordinated reasoning engine."

Как и в агентах, модель перестаёт быть главным героем, и на первый план выходит вся машинерия вокруг неё.

Второе место: разбор, который я бы дал студенту

Разбор со второго места — это тот текст, который я бы рекомендовал любому, кто хочет реально чему-то научиться. Каждое улучшение проговорено, и видно, как логика выстраивается шаг за шагом.

Улучшения 1 и 2 — оба про системный промпт: как сформулировать инструкции, чтобы модель вела себя так, как нужно.

Улучшение 3 — моё любимое, потому что оно простое, а интуиция за ним очевидна, как только её прочитаешь: давать больший вес последним токенам прямо перед финальным ответом, а не всему ответу модели.

"Improvement 3: Tail-Windowed Entropy. Both my version and base notebook use logprob entropy to measure how 'confident' a completion was, for use in the ensemble. But there's an important difference in what entropy is measured over.

Parthenos (public): averages entropy over the full token stream.
Mine: averages entropy only over the last 256 tokens (logprob_tail = 256)."

Улучшения с 4 по 6 — это уже мелкие доработки: более надёжный парсинг ответа и слегка изменённое правило, какой ответ ансамбль в итоге выбирает финальным.

Улучшение 7 добавляет ещё более раннюю остановку. Если текущий лучший ответ уже точно не изменится, что бы ни сгенерировалось дальше, то и продолжать незачем — остановиться и сэкономить вычисления.

Третье место: ставка целиком на промпт

Третье место пошло другим путём и поставило всё на системный промпт. Приём, который мне понравился: автор собрал относительно небольшой датасет, 60 сложных задач с правильными и неправильными решениями от gpt-oss-120b, и дал более крупной и умной модели читать ошибки слабой и предлагать правки промпта, чтобы её направлять. Сильная модель как бы натаскивает слабую, но только через промпт, не трогая веса.

What stays with me from all three is that none of the wins came from a secret model. They came from how the same open model was driven: where to spend tokens, when to stop, how to read its own confidence, and what to put in the prompt. The intelligence was on the table for everyone. The leverage was in the engineering.

Заключение

Получилось ли решить изначальную задачу и приблизить открытые модели к фронтирным в решении сложных задач по математике? На мой взгляд, нет. Победители написали инженерные обёртки над gpt-oss-120b и решили по 44 задачи из 50. На первый взгляд кажется не так плохо, но если вслед за третьим местом предположить, что из 50 задач 35 вообще легко решаются, 10 средней сложности и 5 самых гробов - то скорее всего победители как раз гробы и не смогли сделать, а лучшие модели фронтирных лаб точно решают всё.

Источники