Представьте, что вы внедряете голосового ИИ-ассистента, а комплаенс-служба уже нервно шуршит бумагами и тихо гуглит «как уволить СТО гуманно». Потому что в 2025-м опасен не столько сам ИИ, сколько архитектурное решение под ним.
Рынок enterprise-голоса раскололся не на «умных» и «глупых», а на три лагеря по архитектуре — и именно она определяет, выдержите ли вы требования регуляторов и клиентов.
Три дороги голосового ИИ
1. Нативный S2S (Half-Cascade)
Google Gemini Live, OpenAI Realtime и им подобные принимают аудио, «понимают» его и отвечают голосом с задержкой 200–300 мс — почти человек. Но внутри это гибрид: аудио обрабатывается нативно, а рассуждения всё равно текстовые.
Проблема проста: середина процесса для вас — туман. Аудита нет, политики сложно навесить, логов по шагам — минимум. Для развлекательных ботов и простых колл-центров нормально, для банка или клиники — уже сомнительно.
2. Классический модульный конвейер
STT (Deepgram, AssemblyAI) → LLM → TTS (ElevenLabs, Cartesia). Всё прозрачно, каждый шаг логируется, можно делать PII-редакцию, встраивать память и бизнес-правила. Но цепочка долгая: сеть + обработка дают суммарно 500+ мс, пользователи перебивают бота, думая, что он «завис».
3. Унифицированная модульная архитектура
Ответ модульного лагеря — физическая ко-локация всех компонентов. Together AI, например, размещает STT, LLM и TTS на одних GPU-кластерах, гоняя данные по быстрой памяти, а не через интернет. В итоге — те же <500 мс, что уже терпимо для живого разговора, но при этом:
- есть текстовый слой для PII-редакции и проверок;
- можно подмешивать память, доменные знания, историю клиента;
- управлять произношением сложных терминов и брендов.
Чуть сложнее в операционке, но для серьёзных отраслей — это цена за контроль.
Почему миллисекунды решают судьбу проекта
Критичные метрики:
- TTFT (time to first token): >200 мс уже ощущается «роботом»; цель — до 300–500 мс;
- WER (ошибки распознавания): одно «billing» → «building» ломает логику диалога;
- RTF < 1.0: система должна «думать» быстрее, чем говорит пользователь.
Нативные S2S выигрывают в TTFT, но проигрывают в прозрачности. Унифицированный модульный подход старается попасть в «золотую середину» — скорость плюс управляемость.
Контроль и комплаенс: где модульные выигрывают
Текстовый промежуточный слой даёт три суперспособности:
- Редакция PII до попадания в LLM (как у Retell AI для здравоохранения);
- Инъекция памяти и контекста по ходу беседы — от истории клиента до внутренних регламентов;
- Жёсткий контроль произношения (словари в стиле Rime Mist v2) — важно для лекарств, финансовых инструментов и юридических терминов.
Для банков, медицины, госсектора и крупных российских корпораций это уже не «приятный бонус», а условие выживания.
Вывод: выбираете не модель, а систему
Google с линейкой Gemini Flash делает голосовую автоматизацию экономически выгодной для массовых дешёвых задач. OpenAI держит премиум-сегмент за счёт эмоциональной выразительности и «умного» поведения.
Но если ваш мир — это регуляторы, проверки и риск-менеджмент, ключевой вопрос звучит так:
«Могу ли я объяснить регулятору, что происходило между фразой клиента и ответом ИИ?»
Если ответ «нет» — проблема не в модели, а в архитектуре.
