Представьте, что вы внедряете голосового ИИ-ассистента, а комплаенс-служба уже нервно шуршит бумагами и тихо гуглит «как уволить СТО гуманно». Потому что в 2025-м опасен не столько сам ИИ, сколько архитектурное решение под ним.

Рынок enterprise-голоса раскололся не на «умных» и «глупых», а на три лагеря по архитектуре — и именно она определяет, выдержите ли вы требования регуляторов и клиентов.

Три дороги голосового ИИ

1. Нативный S2S (Half-Cascade)
Google Gemini Live, OpenAI Realtime и им подобные принимают аудио, «понимают» его и отвечают голосом с задержкой 200–300 мс — почти человек. Но внутри это гибрид: аудио обрабатывается нативно, а рассуждения всё равно текстовые.
Проблема проста: середина процесса для вас — туман. Аудита нет, политики сложно навесить, логов по шагам — минимум. Для развлекательных ботов и простых колл-центров нормально, для банка или клиники — уже сомнительно.

2. Классический модульный конвейер
STT (Deepgram, AssemblyAI) → LLM → TTS (ElevenLabs, Cartesia). Всё прозрачно, каждый шаг логируется, можно делать PII-редакцию, встраивать память и бизнес-правила. Но цепочка долгая: сеть + обработка дают суммарно 500+ мс, пользователи перебивают бота, думая, что он «завис».

3. Унифицированная модульная архитектура
Ответ модульного лагеря — физическая ко-локация всех компонентов. Together AI, например, размещает STT, LLM и TTS на одних GPU-кластерах, гоняя данные по быстрой памяти, а не через интернет. В итоге — те же <500 мс, что уже терпимо для живого разговора, но при этом:

  • есть текстовый слой для PII-редакции и проверок;
  • можно подмешивать память, доменные знания, историю клиента;
  • управлять произношением сложных терминов и брендов.

Чуть сложнее в операционке, но для серьёзных отраслей — это цена за контроль.

Почему миллисекунды решают судьбу проекта

Критичные метрики:

  • TTFT (time to first token): >200 мс уже ощущается «роботом»; цель — до 300–500 мс;
  • WER (ошибки распознавания): одно «billing» → «building» ломает логику диалога;
  • RTF < 1.0: система должна «думать» быстрее, чем говорит пользователь.

Нативные S2S выигрывают в TTFT, но проигрывают в прозрачности. Унифицированный модульный подход старается попасть в «золотую середину» — скорость плюс управляемость.

Контроль и комплаенс: где модульные выигрывают

Текстовый промежуточный слой даёт три суперспособности:

  • Редакция PII до попадания в LLM (как у Retell AI для здравоохранения);
  • Инъекция памяти и контекста по ходу беседы — от истории клиента до внутренних регламентов;
  • Жёсткий контроль произношения (словари в стиле Rime Mist v2) — важно для лекарств, финансовых инструментов и юридических терминов.

Для банков, медицины, госсектора и крупных российских корпораций это уже не «приятный бонус», а условие выживания.

Вывод: выбираете не модель, а систему

Google с линейкой Gemini Flash делает голосовую автоматизацию экономически выгодной для массовых дешёвых задач. OpenAI держит премиум-сегмент за счёт эмоциональной выразительности и «умного» поведения.

Но если ваш мир — это регуляторы, проверки и риск-менеджмент, ключевой вопрос звучит так:
«Могу ли я объяснить регулятору, что происходило между фразой клиента и ответом ИИ?»

Если ответ «нет» — проблема не в модели, а в архитектуре.