AI/journal
AI
Мультимодальные модели для обработки документов: GPT-4o vs Claude 3.5 Sonnet
← ЖурналAI6 мин чтения

Мультимодальные модели для обработки документов: GPT-4o vs Claude 3.5 Sonnet

Команда nordiqdev
студия

В мае OpenAI выпустила GPT-4o с нативной обработкой изображений. В июне Anthropic - Claude 3.5 Sonnet с заметно усиленным vision. Это меняет архитектуру обработки документов. Делимся бенчмарком на наших задачах.

Старая архитектура: OCR + LLM

Стандартный пайплайн до 2024-го: PDF → OCR (Tesseract, AWS Textract, ABBYY) → текст → LLM для извлечения структуры. Минусы: OCR теряет таблицы и колонки, LLM не видит layout, много шагов = много мест поломки.

Новая: один мультимодальный вызов

PDF → разбиваем на страницы-картинки → отправляем каждую как image в GPT-4o или Claude 3.5 → получаем JSON с полями. Меньше движущихся частей, модель видит layout и понимает контекст.

Что мы тестировали

  • Счета на услуги (RU): 200 документов, 14 полей.
  • Накладные с таблицами (RU): 80 документов, 6 полей + табличная часть.
  • Договоры (RU/EN): 30 документов, извлечение сторон, сумм, сроков.
  • Рукописные заявки на медицинский осмотр: 60 документов.
  • Сканы паспортов и водительских удостоверений: 100 документов.

Результаты по точности

На печатных счетах оба лидера (GPT-4o и Claude 3.5 Sonnet) дают 95–97% правильных полей. Разница в пределах шума. На сложных таблицах Claude 3.5 заметно лучше держит структуру.

На рукописных документах ситуация хуже. GPT-4o - 71% точность, Claude 3.5 - 68%. Для чувствительных к ошибкам сценариев (медицина) это всё ещё требует ручной валидации.

Сканы паспортов и удостоверений - оба лидера сильны (94–96%), но особое внимание стоит уделить compliance: отправка персональных документов в стороннее API требует юридической оценки.

Цена

GPT-4o vision: ~0.005-0.015$ за страницу в зависимости от detail-level. Claude 3.5 Sonnet: ~0.005-0.012$ за страницу. На объёме 50k страниц/месяц это $250-700. Старый OCR-стек на ABBYY обходился клиенту в $1.20 за страницу, на Tesseract - бесплатно, но точность была 80–85%.

Что мы делаем в проде сейчас

  • Печатные документы - мультимодальная модель напрямую, без OCR.
  • Документы с критичной точностью (медицина, юр) - мультимодаль + правила валидации + human-in-the-loop на сомнительных случаях.
  • Большие объёмы (1М+ страниц/месяц) - гибрид: дешёвый OCR на основной поток, мультимодаль на проблемные документы.
  • Персональные данные - self-hosted альтернативы (например, Qwen2-VL) или классический OCR - пока проще обосновать compliance.
Теги
#multimodal#ocr#gpt-4o#claude#документы
Студия nordiqdev

Делаем мобильные приложения, веб-сервисы и AI на заказ

Если задача из текста выглядит знакомой и нужна команда, которая соберёт продукт - расскажите подробнее. Вернёмся в течение 24 часов с разбором.