Большие модели рассуждений почти наверняка думают

— Если мысль — это автодополнение, то почему мои письма не заканчиваются на «эээ…»? Шутки в сторону: спор о том, «думают» ли большие модели рассуждений (LRM), разгорелся не на пустом месте. Статья Apple «Иллюзия мышления» называет их паттерн-матчерами. Но и человек, знающий алгоритм Ханоя, споткнётся на 20 дисках — мы же не делаем из этого вывод, что люди не мыслят.

Что вообще считать мышлением в задачах? Минимальный набор знаком:

представление проблемы и удержание целей;
внутренняя симуляция (часто в виде внутренней речи);
извлечение знаний из памяти;
мониторинг противоречий;
переосмысление, когда упёрлись в тупик.

У людей это распределено по коре и функциональным сетям. У LRM роль «рабочей памяти» играет контекст с KV-кэшем, а Chain-of-Thought — тот самый внутренний монолог. Модели умеют откатываться от неудачных ходов и искать короткие тропы, когда «в лоб» не помещается. Это не ошибка, а стратегия.

«Но они не видят образов!» — возразят. И у многих людей с афантазией нет ярких ментальных картинок, однако их логика и математика в полном порядке. Важна структура рассуждений, а не их визуальная природа.

Аргумент про «простой предиктор следующего токена» тоже хромает. Язык — самая общая система представления знаний: в нём можно выразить и алгоритмы, и абстракции, и мета-описания. Чтобы стабильно предсказывать правильные токены, модель вынуждена «держать курс» рассуждения и знать факты мира. Отсюда и CoT: шаги записываются словами, как мы проговариваем мысль про себя.

Остаётся эмпирика. На открытых бенчмарках логики и математики LRM уже решают значимую долю задач. Да, они ещё не чемпионы, но порой превосходят «среднего нетренированного» человека. В сумме — сходство с биологическим рассуждением, универсальность языкового представления и реальные результаты — дают простой вывод: большие модели рассуждений почти наверняка думают. И, возможно, становятся в этом всё лучше с каждой «внутренней репликой».