— Если мысль — это автодополнение, то почему мои письма не заканчиваются на «эээ…»? Шутки в сторону: спор о том, «думают» ли большие модели рассуждений (LRM), разгорелся не на пустом месте. Статья Apple «Иллюзия мышления» называет их паттерн-матчерами. Но и человек, знающий алгоритм Ханоя, споткнётся на 20 дисках — мы же не делаем из этого вывод, что люди не мыслят.
Что вообще считать мышлением в задачах? Минимальный набор знаком:
- представление проблемы и удержание целей;
- внутренняя симуляция (часто в виде внутренней речи);
- извлечение знаний из памяти;
- мониторинг противоречий;
- переосмысление, когда упёрлись в тупик.
У людей это распределено по коре и функциональным сетям. У LRM роль «рабочей памяти» играет контекст с KV-кэшем, а Chain-of-Thought — тот самый внутренний монолог. Модели умеют откатываться от неудачных ходов и искать короткие тропы, когда «в лоб» не помещается. Это не ошибка, а стратегия.
«Но они не видят образов!» — возразят. И у многих людей с афантазией нет ярких ментальных картинок, однако их логика и математика в полном порядке. Важна структура рассуждений, а не их визуальная природа.
Аргумент про «простой предиктор следующего токена» тоже хромает. Язык — самая общая система представления знаний: в нём можно выразить и алгоритмы, и абстракции, и мета-описания. Чтобы стабильно предсказывать правильные токены, модель вынуждена «держать курс» рассуждения и знать факты мира. Отсюда и CoT: шаги записываются словами, как мы проговариваем мысль про себя.
Остаётся эмпирика. На открытых бенчмарках логики и математики LRM уже решают значимую долю задач. Да, они ещё не чемпионы, но порой превосходят «среднего нетренированного» человека. В сумме — сходство с биологическим рассуждением, универсальность языкового представления и реальные результаты — дают простой вывод: большие модели рассуждений почти наверняка думают. И, возможно, становятся в этом всё лучше с каждой «внутренней репликой».
