За неделю мы прогнали GPT-4 на пяти задачах из наших клиентских проектов. Сравнение с gpt-3.5-turbo по точности, латентности и стоимости. Без эйфории.
Где GPT-4 явно сильнее
- Сложное reasoning: многошаговые рассуждения с условиями. На задаче валидации заявок на кредит - 91% против 73% у gpt-3.5.
- Извлечение данных из плохо структурированных документов: счета-фактуры разных форматов, рукописные пометки.
- Генерация и проверка кода: gpt-4 редко выдаёт несуществующие методы из API.
- Длинный контекст - 8к и 32к токенов открывают новые сценарии (анализ договоров целиком).
Где разница не оправдывает цену
GPT-4 в 20 раз дороже gpt-3.5-turbo и в 4–6 раз медленнее. Для классификации, простых ответов в чате, генерации стандартных текстов - gpt-3.5 даёт сравнимое качество. Перейти на 4-ку для всего подряд - самый быстрый способ сжечь бюджет.
Что мы советуем клиентам
Двухмодельный пайплайн. Дешёвая gpt-3.5 решает 80% задач. На сложных кейсах (определяемых по эвристике или confidence-score) - фолбэк в gpt-4. У одного клиента такая схема даёт точность 92% при стоимости в 3 раза ниже, чем «всё на 4-ке».
Что меняется в продуктовых решениях
Появился класс задач, который раньше был неподъёмным: автоматическая обработка неструктурированных входных данных с реальной точностью. Юристы, бухгалтерия, claims-департаменты страховых - туда GPT-4 заходит как нож в масло. Ожидаем волну прикладных продуктов в этих нишах в 2023–2024.