AI/journal
Whisper в продакшне
Whisper в продакшне: как мы делаем голосового помощника
← ЖурналAI6 мин чтения

Whisper в продакшне: как мы делаем голосового помощника

Команда nordiqdev
студия

Голосовой интерфейс - это не «наговорить и отправить в LLM». Это пайплайн из VAD, ASR, обработки ошибок и UX, который прощает пользователю. Делимся опытом сборки на Whisper для одного из клиентов.

Архитектура

  1. VAD (voice activity detection) на клиенте - режем тишину, не льём в API лишнее.
  2. Стриминг аудио на бэкенд - небольшими чанками по 2–4 секунды.
  3. Whisper API (large-v3) - ASR на каждый чанк.
  4. Постобработка: коррекция терминов через словарь, нормализация чисел и дат.
  5. Передача в LLM с контекстом диалога.
  6. TTS-ответ для голосового канала или текст для UI.

Whisper API vs self-hosted

OpenAI Whisper API стоит $0.006 за минуту. На объёме до 3000 минут в месяц - дешевле, чем держать GPU. Дальше - выгоднее self-hosted на Whisper-large-v3 (нужна A100 или 2 × A10).

Качество в реальных условиях

  • Чистый микрофон, тихая комната - WER 3–5% на русском.
  • Через мобильный микрофон в офисе - 8–12%.
  • В метро или с улицы - 18–25%, бесполезно для большинства задач.
  • Профессиональный сленг (медицина, юриспруденция) - без custom vocabulary падает катастрофически.

UX, который прощает ошибки

Главное правило: пользователь должен видеть промежуточную транскрипцию и иметь возможность поправить. Если показать только финальный ответ - любая ошибка ASR превращается в нерелевантный ответ LLM, и пользователь теряет доверие за 2-3 раза.

Latency

На стриминге Whisper отдаёт первый чанк за 600–900мс после конца речи. С учётом LLM-ответа и TTS - до полной озвучки уходит 3–5 секунд. Это работает в одних сценариях (обращение в саппорт) и не работает в других (живой диалог).

Теги
#whisper#voice#speech-to-text#ai#openai
Студия nordiqdev

Делаем мобильные приложения, веб-сервисы и AI на заказ

Если задача из текста выглядит знакомой и нужна команда, которая соберёт продукт - расскажите подробнее. Вернёмся в течение 24 часов с разбором.