AI/journal
GPT-4 вышла
GPT-4 вышла: что меняется для продуктов и команд
← ЖурналAI6 мин чтения

GPT-4 вышла: что меняется для продуктов и команд

Команда nordiqdev
студия

За неделю мы прогнали GPT-4 на пяти задачах из наших клиентских проектов. Сравнение с gpt-3.5-turbo по точности, латентности и стоимости. Без эйфории.

Где GPT-4 явно сильнее

  • Сложное reasoning: многошаговые рассуждения с условиями. На задаче валидации заявок на кредит - 91% против 73% у gpt-3.5.
  • Извлечение данных из плохо структурированных документов: счета-фактуры разных форматов, рукописные пометки.
  • Генерация и проверка кода: gpt-4 редко выдаёт несуществующие методы из API.
  • Длинный контекст - 8к и 32к токенов открывают новые сценарии (анализ договоров целиком).

Где разница не оправдывает цену

GPT-4 в 20 раз дороже gpt-3.5-turbo и в 4–6 раз медленнее. Для классификации, простых ответов в чате, генерации стандартных текстов - gpt-3.5 даёт сравнимое качество. Перейти на 4-ку для всего подряд - самый быстрый способ сжечь бюджет.

Что мы советуем клиентам

Двухмодельный пайплайн. Дешёвая gpt-3.5 решает 80% задач. На сложных кейсах (определяемых по эвристике или confidence-score) - фолбэк в gpt-4. У одного клиента такая схема даёт точность 92% при стоимости в 3 раза ниже, чем «всё на 4-ке».

Что меняется в продуктовых решениях

Появился класс задач, который раньше был неподъёмным: автоматическая обработка неструктурированных входных данных с реальной точностью. Юристы, бухгалтерия, claims-департаменты страховых - туда GPT-4 заходит как нож в масло. Ожидаем волну прикладных продуктов в этих нишах в 2023–2024.

Теги
#gpt-4#openai#llm#ai#бенчмарк
Студия nordiqdev

Делаем мобильные приложения, веб-сервисы и AI на заказ

Если задача из текста выглядит знакомой и нужна команда, которая соберёт продукт - расскажите подробнее. Вернёмся в течение 24 часов с разбором.