4 марта Anthropic анонсировала семейство Claude 3 - Haiku, Sonnet и Opus. На следующий день мы прогнали все три модели через наш стандартный набор evals: задачи, которые реально работают в продакшне у наших клиентов. Делимся честными цифрами.
Что мы тестировали
- Классификация обращений в саппорт по 14 категориям (RU/EN, в среднем 80 слов).
- Извлечение структурированных полей из счетов и накладных (PDF + OCR-текст).
- Суммаризация длинных юридических документов (40–120 страниц).
- Code review на TypeScript-проекте: поиск багов и стилистических проблем.
- Многошаговая агентная задача: поиск + сводка + следующее действие.
Классификация: Haiku удивил
Точность Claude 3 Haiku на задаче классификации - 94.1%, у GPT-4 Turbo - 94.6%. Разница в пределах статистической погрешности, а Haiku в восемь раз дешевле и в три раза быстрее. Для всех новых проектов с этим классом задач переключаемся на Haiku.
Извлечение данных: Opus ощутимо лучше
На полуструктурированных документах Opus даёт 96.8% правильных полей против 92.4% у GPT-4 Turbo. Особенно заметна разница на полях, которые требуют сопоставления нескольких частей документа (адрес доставки vs адрес плательщика, итог по строке vs итог по колонке).
Длинный контекст: оба справляются
200k токенов у Claude и 128k у GPT-4 Turbo. На наших юр-документах оба показали достойный recall в needle-in-haystack тестах. Заметная разница: Claude 3 чаще честно говорит «информации в документе нет», GPT-4 чаще придумывает правдоподобный ответ.
Код: ничья
На code review задаче по 30 PR из нашего внутреннего проекта Opus и GPT-4 Turbo нашли практически одинаковый набор проблем (расхождение 12% в обе стороны). Sonnet немного отстаёт. Haiku проседает заметно - для серьёзного кода не подходит.
Цена и латентность
Haiku - 0.25/1.25 за миллион токенов, Sonnet - 3/15, Opus - 15/75. У GPT-4 Turbo - 10/30. По цене Haiku радикально дешевле, Opus заметно дороже. Латентность: Haiku ~150 мс на короткий промпт, Sonnet ~400 мс, Opus ~900 мс. GPT-4 Turbo - около 700 мс.
Наш продакшн-выбор после теста
- Высокообъёмные задачи классификации, маршрутизации, простой суммаризации - Haiku.
- Извлечение данных и работа с длинным контекстом - Opus.
- Агентные пайплайны с tool use - Sonnet как разумный baseline.
- GPT-4 Turbo оставляем там, где уже встроен и метрики устраивают, без миграции ради миграции.