Если бы рассуждение было спортом, Olmo 3.1 пришёл бы на марафон и попросил добавить ещё пару кругов — чисто для разминки. Команда Allen Institute for AI продолжила крутить педали обучения с подкреплением и выжала из семейства Olmo ощутимый апгрейд: версия 3.1 стала выносливее, точнее и дружелюбнее к реальным задачам бизнеса.

В центре внимания — два 32B-богатыря. Olmo 3.1 Think 32B — флагман для исследований и сложных рассуждений. После релиза Olmo 3 инженеры просто не остановились: продлили лучший RL-забег ещё на 21 день, загрузили 224 GPU и прогнали дополнительные эпохи по набору Dolci-Think-RL. Итог — сухие, но приятные цифры: +5 пунктов на AIME, +4 на ZebraLogic, +4 на IFEval и более +20 на IFBench. В придачу — крепче кодинг и многошаговые цепочки рассуждений, где каждая мысль ложится на место, как книга на аккуратной полке.

Рядом шагает Olmo 3.1 Instruct 32B — старший брат чатовой 7B-версии, только с серьёзной мускулатурой. Его настраивали под живые диалоги, использование инструментов и длинные ветки разговоров. По открытым замерам он уверенно держит темп среди опенсорсных коллег, а на математике местами обгоняет даже Gemma 3. Think, в свою очередь, обошёл Qwen 3 32B на AIME 2025 и дышит в спину Gemma 27B — конкурентная прогулка превращается в уверенный забег.

Для любителей компактности Ai2 также подтянул RL‑Zero 7B для математики и кода — больше стабильности, меньше сюрпризов. Чекпоинты уже лежат в AI2 Playground и на Hugging Face, API подкатит скоро, так что тест-драйв — без промедлений.

И всё это — без чёрных ящиков. Olmo 3.1 сохраняет курс на прозрачность: открытые данные, код, решения, плюс OlmoTrace, который помогает увидеть, как выводы модели соотносятся с обучающим корпусом. Вывод простой: если дольше учить и честно показывать процесс, модель не только умнеет, но и заслуживает доверия.