За первое полугодие 2024-го к нам пришли четыре заказчика с колл-центрами и одной формулировкой: «можем ли мы автоматизировать первую линию голосом». Три проекта дошли до прода. Расскажем, что реально работает.
Почему это вообще стало возможно
До конца 2023-го пайплайн «ASR → LLM → TTS» имел задержку 3–5 секунд на ответ. Пользователь успевал решить, что бот сломался. К середине 2024-го с потоковым ASR (Deepgram, Whisper Streaming), быстрыми моделями (GPT-4o, Claude Haiku) и потоковым TTS (ElevenLabs Turbo, OpenAI TTS) задержка упала до 700–1200 мс. Это уже воспринимается как живой собеседник.
Архитектура, которая у нас прижилась
- Telephony-провайдер (Twilio, Telnyx) даёт двунаправленный аудио-стрим.
- ASR (Deepgram nova-2 или Whisper) транскрибирует входящую речь в реальном времени.
- VAD (voice activity detection) определяет, когда пользователь закончил фразу.
- LLM получает накопленный контекст диалога и решает следующий ход.
- TTS озвучивает ответ потоком, начиная отдавать аудио после первых 2–3 предложений.
- На критических ходах (запись на приём, перевод денег) - переход к скриптовому DTMF-подтверждению.
Где это работает
- Подтверждение и перенос записей на услугу (медицина, сервис, beauty).
- Первая линия саппорта по типовым вопросам (статус заказа, баланс, тарифы).
- Холодный пре-квалифицирующий обзвон лидов (не продажа, а маршрутизация).
- Сбор первичной информации до перевода на оператора (anamnesis в клинике).
Где не работает (пока)
Сложные продажи с возражениями, эмоциональные кейсы (жалобы, претензии), сценарии, где нужна импровизация по ситуации. Здесь голосовой бот пока проигрывает среднему оператору, не говоря уже про сильного.
Юнит-экономика на одном из проектов
Колл-центр медцентра, ~9000 звонков в месяц, до внедрения 6 операторов на первой линии. После внедрения - 2 оператора, бот обрабатывает 73% звонков до конца, 27% эскалирует. Стоимость одного звонка для бота: ASR ~0.005, LLM ~0.008, TTS ~0.015, телефония ~0.02 - итого около 5 центов за минуту разговора. Оператор стоил эквивалентно ~25 центов за минуту с учётом всего.
Что недооценивают на старте
- Дикий зоопарк микрофонов и линий: качество входящего аудио сильно прыгает, плохой ASR убивает весь пайплайн.
- Прерывания (barge-in): пользователь начинает говорить, пока бот ещё отвечает. Без барджа диалог звучит мёртво.
- Локальная специфика языка: медицинские термины, региональные акценты, ненормативная лексика - без файнтюна или промпт-инженерии вылезает.
- Compliance: запись разговоров, согласия, хранение. В РФ - отдельная история про 152-ФЗ, в ЕС - GDPR. Это не код, это процесс.