Представьте, что вы всю жизнь жарили яичницу в одном-единственном любимом тазике, а потом внезапно узнали: вообще-то есть сковородки разного размера и даже духовка. Примерно это сейчас переживает мир ИИ вместе с Nvidia.
Сделка Nvidia и Groq на $20 млрд стала громким признанием: эпоха универсального GPU, который «и обучит, и проинференсит всё подряд», подходит к концу. В 2025‑м инференс впервые обогнал обучение по выручке дата‑центров, и правила игры сменились. Точность всё ещё важна, но королями стали задержка и память: насколько быстро модель отвечает и насколько хорошо «помнит» своё состояние.
Расщепление: prefill против decode
Инференс аккуратно разламывает GPU на две роли:
- Prefill — прожорливый этап: модель глотает промпт на сотни тысяч токенов, строит контекст. Это матричный ад, в котором классические GPU сильны.
- Decode — токен за токеном, почти в реальном времени. Тут решает не сырая мощность, а скорость доступа к памяти.
Nvidia отвечает семейством Vera Rubin. Линия Rubin CPX — «трактор» для prefill: гигантские контексты (миллион токенов и больше), более доступная GDDR7 вместо дефицитной и дорогой HBM. А вот «groq‑вкусные» блоки становятся мотором decode — тем, что отдаёт токены с минимальной задержкой и спасает CUDA‑экосистему от набега TPU и прочих экзотик.
SRAM как турбо‑блокнот для маленьких моделей
Фокус Groq — SRAM, память, впаянная прямо в логику чипа. Передвинуть бит внутри SRAM в десятки раз дешевле по энергии, чем таскать его между DRAM и процессором. В эпоху, когда агенты должны решать задачи «на лету», это идеальный «черновик» для рассуждений.
Минус известен: SRAM громоздка и дорога, поэтому объёмы ограничены. Но именно это открывает огромный сегмент: компактные модели до 8B параметров — голос, робототехника, IoT, офлайн‑ИИ на телефоне. В 2025‑м бизнес массово занялся дистилляцией — ужатием гигантских моделей до эффективных «малюток». Для них SRAM — как раз то, что доктор прописал.
Портируемый стек и война за «состояние»
Anthropic тихо сделала почти крамолу: свой ИИ‑стек, который одинаково хорошо чувствует себя и на GPU Nvidia, и на TPU Google. Плюс контракт на доступ до миллиона TPU. Это прямой вызов любой монополии железа.
Параллельно Meta покупает Manus и наращивает ставку на stateful‑агентов. Реальный агент не может забыть, что делал десять шагов назад. При этом в боевых сценариях соотношение вход/выход может быть 100:1 — на каждое слово ответа приходится сотня токенов «думания». Всё держится на KV‑кэше: вылетел из памяти — плати энергией и временем за пересчёт.
Здесь снова выстреливает SRAM Groq (для небольших моделей) и многоуровневая память Nvidia: от сверхбыстрой до флеш‑решений партнёров. Над этим нависает Dynamo и зачатки «операционной системы инференса», где важно уже не «какой чип вы купили», а где живёт состояние агента и как к нему добираются токены.
Что это значит для архитекторов
2026‑й — год, когда стратегия ИИ‑железа перестаёт быть закупкой «одного правильного ускорителя». Теперь это:
- явная разметка нагрузок: prefill vs decode, длинный контекст vs короткий, интерактив vs батч, edge vs дата‑центр;
- маршрутизация по слоям памяти и типам чипов;
- сознательный выбор, где именно будет бежать каждый токен — и почему.
Те, кто продолжит думать «один стойкер, один тип GPU, один ответ», останутся в прошлом. Будущее — за теми, кто относится к своему ИИ‑стеку как к распределённому городу, где у каждого района — свой ритм, своя инфраструктура и своё, очень специализированное железо.
