Потолок фактичности 70%: FACTS от Google как холодный душ для корпоративного ИИ

Если ваш ИИ звучит как уверенный в себе отличник, помните: иногда это просто студент, который списал у будущего себя. FACTS — новый бенчмарк от Google и Kaggle — вежливо, но жестко напомнил: потолок фактичности сегодня — около 70%, и это не витраж, а бетон.

Что внутри FACTS? Не обычная викторина. Набор из четырех испытаний, каждое имитирует реальную болячку продов: Parametric (насколько верно модель «помнит»), Search (как эффективно ищет и синтезирует), Multimodal (видит ли графики и картинки без фантазий) и Grounding v2 (умеет ли держаться строго источника). Публично доступно 3 513 примеров, приватный пул — на стороне Kaggle, чтобы код не «подглядывал» в ответы.

Лидеры? Gemini 3 Pro — 68,8% в среднем. Дальше — Gemini 2.5 Pro (62,1%) и GPT‑5 (61,8%). Но интереснее разрыв между «знаю» и «нахожу»: у Gemini 3 Pro поиск — 83,8%, тогда как собственная память — пом modestнее. Вывод для архитекторов очевиден: ставьте RAG не «когда‑нибудь», а «вчера». Внутренняя память модели хороша как черновик, а не как регистр бухгалтерии.

Самое тревожное — мультимодальность. Лидеры едва дотягивают до ~47%. Читать диаграммы, вытаскивать числа со счетов, распознавать объекты — пока что лотерея без надзора человека. Планируете автопарсинг PDF и графиков? Закладывайте human‑in‑the‑loop и валидацию.

Зачем это бизнесу? FACTS быстро станет чек‑листом закупки. Для саппорта смотрите на Grounding (интересно, что Gemini 2.5 Pro обошел 3 Pro: 74,2 против 69,0). Для ресерча — на Search. Для анализа изображений — только с предохранителем.

Мораль проста: модели становятся умнее, но не безгрешны. Проектируйте процессы так, словно каждое третье утверждение нуждается в проверке. ИИ — замечательный коллега, но все еще стажер без права подписи.