Голосовой AI в колл-центрах: что реально внедряется в 2024

Команда nordiqdev

студия

За первое полугодие 2024-го к нам пришли четыре заказчика с колл-центрами и одной формулировкой: «можем ли мы автоматизировать первую линию голосом». Три проекта дошли до прода. Расскажем, что реально работает.

Почему это вообще стало возможно

До конца 2023-го пайплайн «ASR → LLM → TTS» имел задержку 3–5 секунд на ответ. Пользователь успевал решить, что бот сломался. К середине 2024-го с потоковым ASR (Deepgram, Whisper Streaming), быстрыми моделями (GPT-4o, Claude Haiku) и потоковым TTS (ElevenLabs Turbo, OpenAI TTS) задержка упала до 700–1200 мс. Это уже воспринимается как живой собеседник.

Архитектура, которая у нас прижилась

Telephony-провайдер (Twilio, Telnyx) даёт двунаправленный аудио-стрим.
ASR (Deepgram nova-2 или Whisper) транскрибирует входящую речь в реальном времени.
VAD (voice activity detection) определяет, когда пользователь закончил фразу.
LLM получает накопленный контекст диалога и решает следующий ход.
TTS озвучивает ответ потоком, начиная отдавать аудио после первых 2–3 предложений.
На критических ходах (запись на приём, перевод денег) - переход к скриптовому DTMF-подтверждению.

Где это работает

Подтверждение и перенос записей на услугу (медицина, сервис, beauty).
Первая линия саппорта по типовым вопросам (статус заказа, баланс, тарифы).
Холодный пре-квалифицирующий обзвон лидов (не продажа, а маршрутизация).
Сбор первичной информации до перевода на оператора (anamnesis в клинике).

Где не работает (пока)

Сложные продажи с возражениями, эмоциональные кейсы (жалобы, претензии), сценарии, где нужна импровизация по ситуации. Здесь голосовой бот пока проигрывает среднему оператору, не говоря уже про сильного.

Юнит-экономика на одном из проектов

Колл-центр медцентра, ~9000 звонков в месяц, до внедрения 6 операторов на первой линии. После внедрения - 2 оператора, бот обрабатывает 73% звонков до конца, 27% эскалирует. Стоимость одного звонка для бота: ASR ~0.005, LLM ~0.008, TTS ~0.015, телефония ~0.02 - итого около 5 центов за минуту разговора. Оператор стоил эквивалентно ~25 центов за минуту с учётом всего.

Что недооценивают на старте

Дикий зоопарк микрофонов и линий: качество входящего аудио сильно прыгает, плохой ASR убивает весь пайплайн.
Прерывания (barge-in): пользователь начинает говорить, пока бот ещё отвечает. Без барджа диалог звучит мёртво.
Локальная специфика языка: медицинские термины, региональные акценты, ненормативная лексика - без файнтюна или промпт-инженерии вылезает.
Compliance: запись разговоров, согласия, хранение. В РФ - отдельная история про 152-ФЗ, в ЕС - GDPR. Это не код, это процесс.

Теги

#voice ai#llm#колл-центр#asr#tts#whisper

Голосовой AI в колл-центрах: что реально внедряется в 2024

Почему это вообще стало возможно

Архитектура, которая у нас прижилась

Где это работает

Где не работает (пока)

Юнит-экономика на одном из проектов

Что недооценивают на старте

Другие статьи из журнала

Voice-first продукты: STT, TTS и архитектура голосовых ассистентов

Llama 4 и Mistral: open-source LLM на середину 2025

Self-hosted LLM в 2025: vs API. Когда экономика сходится

Делаем мобильные приложения, веб-сервисы и AI на заказ