AI/journal
Claude 3 против GPT-4
Claude 3 против GPT-4: сравнение для продакшн-задач
← ЖурналAI8 мин чтения

Claude 3 против GPT-4: сравнение для продакшн-задач

Команда nordiqdev
студия

4 марта Anthropic анонсировала семейство Claude 3 - Haiku, Sonnet и Opus. На следующий день мы прогнали все три модели через наш стандартный набор evals: задачи, которые реально работают в продакшне у наших клиентов. Делимся честными цифрами.

Что мы тестировали

  • Классификация обращений в саппорт по 14 категориям (RU/EN, в среднем 80 слов).
  • Извлечение структурированных полей из счетов и накладных (PDF + OCR-текст).
  • Суммаризация длинных юридических документов (40–120 страниц).
  • Code review на TypeScript-проекте: поиск багов и стилистических проблем.
  • Многошаговая агентная задача: поиск + сводка + следующее действие.

Классификация: Haiku удивил

Точность Claude 3 Haiku на задаче классификации - 94.1%, у GPT-4 Turbo - 94.6%. Разница в пределах статистической погрешности, а Haiku в восемь раз дешевле и в три раза быстрее. Для всех новых проектов с этим классом задач переключаемся на Haiku.

Извлечение данных: Opus ощутимо лучше

На полуструктурированных документах Opus даёт 96.8% правильных полей против 92.4% у GPT-4 Turbo. Особенно заметна разница на полях, которые требуют сопоставления нескольких частей документа (адрес доставки vs адрес плательщика, итог по строке vs итог по колонке).

Длинный контекст: оба справляются

200k токенов у Claude и 128k у GPT-4 Turbo. На наших юр-документах оба показали достойный recall в needle-in-haystack тестах. Заметная разница: Claude 3 чаще честно говорит «информации в документе нет», GPT-4 чаще придумывает правдоподобный ответ.

Код: ничья

На code review задаче по 30 PR из нашего внутреннего проекта Opus и GPT-4 Turbo нашли практически одинаковый набор проблем (расхождение 12% в обе стороны). Sonnet немного отстаёт. Haiku проседает заметно - для серьёзного кода не подходит.

Цена и латентность

Haiku - 0.25/1.25 за миллион токенов, Sonnet - 3/15, Opus - 15/75. У GPT-4 Turbo - 10/30. По цене Haiku радикально дешевле, Opus заметно дороже. Латентность: Haiku ~150 мс на короткий промпт, Sonnet ~400 мс, Opus ~900 мс. GPT-4 Turbo - около 700 мс.

Наш продакшн-выбор после теста

  • Высокообъёмные задачи классификации, маршрутизации, простой суммаризации - Haiku.
  • Извлечение данных и работа с длинным контекстом - Opus.
  • Агентные пайплайны с tool use - Sonnet как разумный baseline.
  • GPT-4 Turbo оставляем там, где уже встроен и метрики устраивают, без миграции ради миграции.
Теги
#claude 3#gpt-4#llm#anthropic#openai#сравнение
Студия nordiqdev

Делаем мобильные приложения, веб-сервисы и AI на заказ

Если задача из текста выглядит знакомой и нужна команда, которая соберёт продукт - расскажите подробнее. Вернёмся в течение 24 часов с разбором.