Гонка на выносливость: GPT-5.1 Codex-Max пишет код сутками и мыслит на длинной дистанции

Кофе остыл, ноутбук греется, а агент всё ещё бодр — не программист, а бессонная сова на кремниевых батарейках. OpenAI выкатила GPT‑5.1 Codex‑Max — новую «дальнобойную» модель для агентной разработки, которая не только держит мысль на длинной дистанции, но и, по данным компании, спокойно тащит 24‑часовые задачи: рефакторинг, TDD‑итерации и автономное отладочное ралли.

На сухих цифрах модель выглядит уверенно. На SWE‑Bench Verified Codex‑Max взял 77,9% точности (против 76,2% у свежего конкурента), на Terminal‑Bench 2.0 — 58,1% (против 54,2%), а на LiveCodeBench Pro — паритетный Elo 2 439. Относительно прошлого GPT‑5.1‑Codex есть приросты: 79,9% на SWE‑Lancer IC SWE, 77,9% на SWE‑Bench Verified (против 73,7%) и 58,1% на Terminal‑Bench 2.0 (против 52,8%). Все прогоны — с compaction и повышенным уровнем рассуждения.

Секрет выносливости — в механизме compaction. Он «сжимает» сессию, оставляя полезный контекст и сбрасывая шум, поэтому длинные диалоги не превращаются в кашу даже на миллионах токенов. Бонусом на среднем уровне рассуждения модель тратит около 30% меньше «thinking‑токенов» при той же или лучшей точности — значит, дешевле и быстрее.

По площадкам: GPT‑5.1 Codex‑Max уже живёт в Codex CLI (@openai/codex), подключается к IDE‑расширениям и интерактивным средам вроде симуляторов CartPole и оптического «Закона Снеллиуса». Публичного API пока нет, но «скоро». Для пользователей доступ — в ChatGPT Plus, Pro, Business, Edu и Enterprise; в Codex‑интерфейсах новинка становится дефолтом. Внутри OpenAI 95% инженеров используют Codex еженедельно, а пулл‑реквестов стало в среднем на ~70% больше.

С безопасностью всё по‑взрослому: модель не дотягивает до «High» по киберспособностям в Preparedness Framework, но это самый прокачанный на сегодня вариант у OpenAI. Песочница, сеть по умолчанию выключена, активный мониторинг и маршрутизация активностей. И да, это ассистент, а не судья последней инстанции: логи терминала, тест‑цитаты и прозрачные вызовы инструментов помогают держать код в рамках человеческого ревью.

Итог: Codex‑Max — шаг к полноценным агентным пайплайнам, где ИИ оперирует уже репозиторием целиком, а не отдельными файлами. Длинное мышление, экономия токенов и интерактив — тройка, которая ускоряет разработку, не забывая об ответственности.