Представьте себе приятный сюрприз: вы думали, что для ускорения ИИ придётся продать почку и ждать новый кластер, а оказалось — достаточно обновить софт и перезагрузить сервис. Не жизнь, а релиз-ноты мечты.
Компания Nvidia громко показала миру будущий GPU Vera Rubin — монстра, который, по словам Дженсена Хуана, выдаёт до 50 PFLOPs NVFP4 в инференсе и 35 PFLOPs в обучении. Это до 5 раз быстрее нынешнего флагмана Blackwell по инференсу и до 3,5 — по обучению. Но есть нюанс: Rubin появится во второй половине 2026 года. А жить и зарабатывать нужно сегодня.
Blackwell: тише едет — быстрее считается
Пока все смотрели на слайды с Rubin, Nvidia выкатила исследования, где показала: Blackwell уже сейчас может работать до 2,8 раза быстрее в инференсе — на том же самом железе. Никаких новых стоек, только новая магия в TensorRT‑LLM.
Ключевые фишки:
- Programmatic Dependent Launch (PDL) — меньше задержек на запуск ядер, больше реальной загрузки GPU.
- Оптимизированный all‑to‑all — убрали лишний буфер, освободили память и ускорили коммуникации, что критично для MoE-моделей.
- Multi-Token Prediction (MTP) — вместо «по одному токену за раз» модель предсказывает сразу несколько, повышая пропускную способность на разных длинах последовательностей.
- NVFP4 — новый 4‑битный формат с аппаратной поддержкой в Blackwell: меньше нагрузка на память при сохранении точности.
Результаты мерили на DeepSeek‑R1 — 671-миллиардной MoE-модели, где активируется 37 млрд параметров на токен. И всё это — просто обновлением стека.
Обучение тоже не осталось в стороне
Система GB200 NVL72, построенная на Blackwell, всего за пять месяцев стала обучать модели в 1,4 раза быстрее — опять же без замены железа.
Сработали:
- новые тренировочные рецепты с переходом от FP8 к NVFP4;
- алгоритмические оптимизации в программном стеке.
Это особенно ценно для крупных игроков и национальных инициатив по ИИ — в том числе в России, где каждый процент эффективности в ЦОДах превращается в миллионы сэкономленных рублей.
Ждать Rubin или масштабировать Blackwell?
По сути выбор такой:
- 2025–первая половина 2026 — разумно строить и расширять кластеры на Blackwell, выжимая максимум из текущего поколения;
- конец 2026 и далее — планировать крупные новые кампусы и гипермасштабные кластеры уже с оглядкой на Vera Rubin.
Rubin обещает обучать крупные MoE вчетверо меньшим числом GPU, давать до 10x больше токенов на ватт и снижать стоимость токена в 10 раз. Это уже не «просто быстрее», а смена экономики ИИ.
Оптимальная стратегия для предприятий и облаков — фазовое развёртывание: сейчас обновить стек и стандартизироваться на Blackwell, одновременно закладывая архитектуру, в которую Rubin войдёт без революции. Такой подход позволяет не ждать «идеального железа», а зарабатывать на ИИ уже сегодня — и безболезненно перейти к следующему поколению, когда оно доедет до стойки.
