AI/journal
Голосовой AI в колл-центрах
Голосовой AI в колл-центрах: что реально внедряется в 2024
← ЖурналAI8 мин чтения

Голосовой AI в колл-центрах: что реально внедряется в 2024

Команда nordiqdev
студия

За первое полугодие 2024-го к нам пришли четыре заказчика с колл-центрами и одной формулировкой: «можем ли мы автоматизировать первую линию голосом». Три проекта дошли до прода. Расскажем, что реально работает.

Почему это вообще стало возможно

До конца 2023-го пайплайн «ASR → LLM → TTS» имел задержку 3–5 секунд на ответ. Пользователь успевал решить, что бот сломался. К середине 2024-го с потоковым ASR (Deepgram, Whisper Streaming), быстрыми моделями (GPT-4o, Claude Haiku) и потоковым TTS (ElevenLabs Turbo, OpenAI TTS) задержка упала до 700–1200 мс. Это уже воспринимается как живой собеседник.

Архитектура, которая у нас прижилась

  1. Telephony-провайдер (Twilio, Telnyx) даёт двунаправленный аудио-стрим.
  2. ASR (Deepgram nova-2 или Whisper) транскрибирует входящую речь в реальном времени.
  3. VAD (voice activity detection) определяет, когда пользователь закончил фразу.
  4. LLM получает накопленный контекст диалога и решает следующий ход.
  5. TTS озвучивает ответ потоком, начиная отдавать аудио после первых 2–3 предложений.
  6. На критических ходах (запись на приём, перевод денег) - переход к скриптовому DTMF-подтверждению.

Где это работает

  • Подтверждение и перенос записей на услугу (медицина, сервис, beauty).
  • Первая линия саппорта по типовым вопросам (статус заказа, баланс, тарифы).
  • Холодный пре-квалифицирующий обзвон лидов (не продажа, а маршрутизация).
  • Сбор первичной информации до перевода на оператора (anamnesis в клинике).

Где не работает (пока)

Сложные продажи с возражениями, эмоциональные кейсы (жалобы, претензии), сценарии, где нужна импровизация по ситуации. Здесь голосовой бот пока проигрывает среднему оператору, не говоря уже про сильного.

Юнит-экономика на одном из проектов

Колл-центр медцентра, ~9000 звонков в месяц, до внедрения 6 операторов на первой линии. После внедрения - 2 оператора, бот обрабатывает 73% звонков до конца, 27% эскалирует. Стоимость одного звонка для бота: ASR ~0.005, LLM ~0.008, TTS ~0.015, телефония ~0.02 - итого около 5 центов за минуту разговора. Оператор стоил эквивалентно ~25 центов за минуту с учётом всего.

Что недооценивают на старте

  • Дикий зоопарк микрофонов и линий: качество входящего аудио сильно прыгает, плохой ASR убивает весь пайплайн.
  • Прерывания (barge-in): пользователь начинает говорить, пока бот ещё отвечает. Без барджа диалог звучит мёртво.
  • Локальная специфика языка: медицинские термины, региональные акценты, ненормативная лексика - без файнтюна или промпт-инженерии вылезает.
  • Compliance: запись разговоров, согласия, хранение. В РФ - отдельная история про 152-ФЗ, в ЕС - GDPR. Это не код, это процесс.
Теги
#voice ai#llm#колл-центр#asr#tts#whisper
Студия nordiqdev

Делаем мобильные приложения, веб-сервисы и AI на заказ

Если задача из текста выглядит знакомой и нужна команда, которая соберёт продукт - расскажите подробнее. Вернёмся в течение 24 часов с разбором.