В первую неделю после открытия публичного API OpenAI мы успели подписать три проекта на пилоты. К январю у нас уже накопился опыт, которым стоит поделиться, пока рынок не перекормили статьями про «как мы прикрутили GPT».
Где LLM реально решает задачу
Из трёх пилотов выжили два. В первом случае - это саппорт-помощник, который пишет черновик ответа оператору, а не пользователю. Скорость закрытия тикета сократилась с 4.2 до 2.8 минут. Во втором - извлечение структурированных данных из писем поставщиков (заказ, количество, срок). Точность - 94%, для бизнеса достаточно.
Где LLM провалила задачу
Третий пилот - автогенерация product description в e-commerce. Тексты получаются гладкими, но в 30% случаев модель приписывает товару характеристики, которых у него нет. Для интернет-магазина это означает возвраты и претензии. Закрыли через два месяца.
Что мы поняли про латентность
- Среднее время ответа gpt-3.5-turbo на 500 токенов - 4–7 секунд. Это много для интерактивных сценариев.
- Streaming-ответы решают UX-проблему: пользователь видит, что что-то происходит, и не уходит.
- Параллельные запросы режутся rate-limit'ом раньше, чем ожидаешь. Закладывайте retry с exponential backoff.
- Для real-time сценариев (чат с клиентом) лучше держать пул заранее прогретых соединений.
Стоимость в реальных деньгах
На саппорт-проекте при 12 тысячах диалогов в месяц счёт от OpenAI - около 380 долларов. Это копейки относительно зарплат операторов. На проекте с извлечением данных - 90 долларов в месяц при 60 тысячах писем. Главное - не тащить весь контекст в каждый запрос: токены складываются быстро.
Что закладывать в архитектуру с первого дня
- Абстракция над провайдером: завтра вы захотите попробовать Claude или Llama, не переписывая половину кода.
- Логирование всех промптов и ответов - это ваш единственный способ отлаживать модель.
- Версионирование промптов как кода: с PR, ревью и тестами.
- Бюджет-алерт по расходам в OpenAI dashboard. Серьёзно, утечка стоит дорого.
Что планируем в 2023-м
Мы выделили AI-направление в отдельную команду. Ожидаем, что к лету будет третья волна интеграций - уже не пилотов, а production-фич. Главный вопрос года - научиться оценивать LLM-фичи так же строго, как мы оцениваем обычную функциональность.