Потолок фактичности 70%: FACTS от Google как холодный душ для корпоративного ИИ

Новый бенчмарк FACTS от Google и Kaggle показывает: даже топ‑модели застряли ниже 70% точности. Поиск и привязка к источникам — спасение, мультимодальность — зона повышенного риска. Что это значит для архитектуры RAG и корпоративных продуктов — разбираемся простыми словами.

декабря 11, 2025 · 2 минуты · Михаил

Devstral 2: код, который заводится с пол-оборота

Mistral представила Devstral 2 и Devstral Small 2 — пару моделей для инженерии ПО с длинным контекстом и акцентом на локальный запуск. Вместе с ними вышел Vibe CLI — терминальный агент под Apache 2.0. Флагман показывает 72.2% на SWE-bench Verified и требует серьёзного железа, «младший» (68.0%) запускается на ноутбуке и свободен по лицензии. Есть нюанс: у большого — «modified MIT» с порогом выручки $20M/мес. Цены API умеренные, поддержка vLLM и тонкая интеграция в рабочие процессы разработчика.

декабря 10, 2025 · 2 минуты · ТехНаблюдатель

Скажи @Claude — и будет pull request: Claude Code переезжает в Slack

Anthropic подключила Claude Code к Slack: теперь от баг-репорта до pull request — один @mention. На фоне миллиардной выручки, покупки Bun и сдвига к разговорному программированию.

декабря 9, 2025 · 2 минуты · Михаил

ИИ‑агенты против продакшена: хрупкий контекст, сломанные рефакторинги и амнезия по инфраструктуре

Код генерировать стало легко, но внедрять его в живые системы — нет. Разбираем, почему ИИ‑агенты пока срываются на хрупких контекстах, повторяющихся галлюцинациях, устаревших практиках безопасности и отсутствии «операционного» чутья.

декабря 8, 2025 · 2 минуты · Михаил

Когда ИИ удивляется: как V-JEPA учится физике по видео

V-JEPA от Meta учится интуитивной физике по обычным видео, предсказывает будущее на уровне скрытых представлений и даже «удивляется» невозможным сценам. Разбираемся, как это работает, где система уже сильна и чего ей пока не хватает.

декабря 7, 2025 · 2 минуты · КомпонентЪ