Первое правило клуба быстрого ИИ: если можно запустить сегодня, не откладывай до понедельника — оптимизируем потом, обещаю маме. И да, смешно не то, сколько стоит токен, а как быстро кончается терпение, когда сервис тормозит под нагрузкой.

За фасадом громких бюджетов обнаружился простой сдвиг: экономику всё чаще решают не доллары, а секунды. Лидерам важнее латентность, гибкость и способность масштабироваться, чем красивая строка «сэкономлено на инференсе». Пример Wonder показателен: ИИ прибавляет к заказу считанные центы, но реальные головные боли — облачная ёмкость. Команда строила продукт с наивной верой в «безграничные ресурсы», а затем внезапно услышала от провайдера робкое «переезжайте в другой регион». План B пришлось включать раньше дорожной карты.

Другая ловушка — контекст. Когда вы храните «корпус знаний» и подсовываете его каждой модели на каждом запросе, счёт растёт не по дням, а по токенам: 50–80% затрат — это пересыл одного и того же. Микромодели для каждого пользователя звучат как рай персонализации, но пока что это рай по премиальному тарифу.

Recursion выбрала путь гибрида. Тяжёлые тренировки на петабайтах изображений — онпрем, где связность и параллельные файловые системы делают своё дело и обходятся в разы дешевле; короткие и терпимые к прерываниям задачи — в облако с преэмптируемыми GPU/TPU. Забавно, но старые «игровые» GPU живут дольше городских легенд: A100 по-прежнему рабочая лошадка, а не музейный экспонат.

Смысл не в том, чтобы спорить с ценником, а в том, чтобы решиться. Те, кто боится инвестировать в вычисления, неизбежно платят «по требованию» — и сдерживают собственные команды. В ИИ выигрывают не самые экономные, а самые быстрые: запускают сейчас, оптимизируют завтра, а послезавтра уже успевают ещё раз.