Claude 3 против GPT-4: сравнение для продакшн-задач

Команда nordiqdev

студия

4 марта Anthropic анонсировала семейство Claude 3 - Haiku, Sonnet и Opus. На следующий день мы прогнали все три модели через наш стандартный набор evals: задачи, которые реально работают в продакшне у наших клиентов. Делимся честными цифрами.

Что мы тестировали

Классификация обращений в саппорт по 14 категориям (RU/EN, в среднем 80 слов).
Извлечение структурированных полей из счетов и накладных (PDF + OCR-текст).
Суммаризация длинных юридических документов (40–120 страниц).
Code review на TypeScript-проекте: поиск багов и стилистических проблем.
Многошаговая агентная задача: поиск + сводка + следующее действие.

Классификация: Haiku удивил

Точность Claude 3 Haiku на задаче классификации - 94.1%, у GPT-4 Turbo - 94.6%. Разница в пределах статистической погрешности, а Haiku в восемь раз дешевле и в три раза быстрее. Для всех новых проектов с этим классом задач переключаемся на Haiku.

Извлечение данных: Opus ощутимо лучше

На полуструктурированных документах Opus даёт 96.8% правильных полей против 92.4% у GPT-4 Turbo. Особенно заметна разница на полях, которые требуют сопоставления нескольких частей документа (адрес доставки vs адрес плательщика, итог по строке vs итог по колонке).

Длинный контекст: оба справляются

200k токенов у Claude и 128k у GPT-4 Turbo. На наших юр-документах оба показали достойный recall в needle-in-haystack тестах. Заметная разница: Claude 3 чаще честно говорит «информации в документе нет», GPT-4 чаще придумывает правдоподобный ответ.

Код: ничья

На code review задаче по 30 PR из нашего внутреннего проекта Opus и GPT-4 Turbo нашли практически одинаковый набор проблем (расхождение 12% в обе стороны). Sonnet немного отстаёт. Haiku проседает заметно - для серьёзного кода не подходит.

Цена и латентность

Haiku - 0.25/1.25 за миллион токенов, Sonnet - 3/15, Opus - 15/75. У GPT-4 Turbo - 10/30. По цене Haiku радикально дешевле, Opus заметно дороже. Латентность: Haiku ~150 мс на короткий промпт, Sonnet ~400 мс, Opus ~900 мс. GPT-4 Turbo - около 700 мс.

Наш продакшн-выбор после теста

Высокообъёмные задачи классификации, маршрутизации, простой суммаризации - Haiku.
Извлечение данных и работа с длинным контекстом - Opus.
Агентные пайплайны с tool use - Sonnet как разумный baseline.
GPT-4 Turbo оставляем там, где уже встроен и метрики устраивают, без миграции ради миграции.

Теги

#claude 3#gpt-4#llm#anthropic#openai#сравнение

Claude 3 против GPT-4: сравнение для продакшн-задач

Что мы тестировали

Классификация: Haiku удивил

Извлечение данных: Opus ощутимо лучше

Длинный контекст: оба справляются

Код: ничья

Цена и латентность

Наш продакшн-выбор после теста

Другие статьи из журнала

Сравнение Agent SDK 2026: Anthropic, OpenAI, Google

GPT-4 вышла: что меняется для продуктов и команд

MCP - протокол Anthropic для AI-агентов: первые впечатления

Делаем мобильные приложения, веб-сервисы и AI на заказ