Разрыв подкрепления: почему одни навыки ИИ летят, а другие плетутся

Пока мы спорили, учтёт ли ИИ оксфордскую запятую, он уже починил наш билд и попросил мерджнуть пул-реквест. Шутка, но тенденция реальна: навыки ИИ растут неравномерно.

В разработке — турбо-режим. Поколения GPT‑5, Gemini 2.5 и свежий Sonnet 4.5 научили ассистентов не просто дописывать функции, а закрывать тикеты, гонять тесты и чинить регрессы. Почему именно код? Потому что он идеально ложится на рельсы подкрепления: миллиарды автотестов создают честную метрику «прошёл/провалил», которую можно крутить бесконечно без усталых ассесоров. Юнит, интеграция, безопасность — всё уже систематизировано, маштабируемо и приучено говорить правду.

А вот письма, маркетинговые тексты и универсальные чат-боты застряли в тягучем прогрессе: вкус, тон, уместность — метрики туманные, шумные и дорогие для масштабирования. Даже если сама модель умнеет, продукт не всегда это чувствует: без автоматической обратной связи улучшения расползаются, как масло по хлебу.

Отсюда — «разрыв подкрепления». Навыки, дружелюбные к RL (поиск багов, соревновательная математика, формальные задачи), ускоряются. Навыки с субъективной оценкой растут понемногу. Но граница не высечена в камне. Там, где нет готовых тест-наборов, их можно собрать. Финансовая отчётность, актуарные модели, комплаенс — всё, что превращается в повторяемые чек-листы и симуляции, рано или поздно станет конвейером.

Свежий пример — видео. Казалось, «не тестируемо»: красота — в глазах зрителя. Но прогресс Sora 2 показывает обратное: устойчивые лица, непротиворечивая физика, исчезнувшие «магические артефакты». Похоже, под капотом — множество RL-петель с детекторами консистентности, коллизий и причинности.

Вывод для фаундеров и отраслей: будущее достанется тем, кто умеет превращать процесс в тест. Сможете формализовать качество — сможете ускорить ИИ. Не сможете — получите блестящее демо и разочарованного пользователя. Разрыв подкрепления — это не приговор, это дорожный знак, указывающий, где строить следующую трассу.