Мультимодальные модели для обработки документов: GPT-4o vs Claude 3.5 Sonnet

Команда nordiqdev

студия

В мае OpenAI выпустила GPT-4o с нативной обработкой изображений. В июне Anthropic - Claude 3.5 Sonnet с заметно усиленным vision. Это меняет архитектуру обработки документов. Делимся бенчмарком на наших задачах.

Старая архитектура: OCR + LLM

Стандартный пайплайн до 2024-го: PDF → OCR (Tesseract, AWS Textract, ABBYY) → текст → LLM для извлечения структуры. Минусы: OCR теряет таблицы и колонки, LLM не видит layout, много шагов = много мест поломки.

Новая: один мультимодальный вызов

PDF → разбиваем на страницы-картинки → отправляем каждую как image в GPT-4o или Claude 3.5 → получаем JSON с полями. Меньше движущихся частей, модель видит layout и понимает контекст.

Что мы тестировали

Счета на услуги (RU): 200 документов, 14 полей.
Накладные с таблицами (RU): 80 документов, 6 полей + табличная часть.
Договоры (RU/EN): 30 документов, извлечение сторон, сумм, сроков.
Рукописные заявки на медицинский осмотр: 60 документов.
Сканы паспортов и водительских удостоверений: 100 документов.

Результаты по точности

На печатных счетах оба лидера (GPT-4o и Claude 3.5 Sonnet) дают 95–97% правильных полей. Разница в пределах шума. На сложных таблицах Claude 3.5 заметно лучше держит структуру.

На рукописных документах ситуация хуже. GPT-4o - 71% точность, Claude 3.5 - 68%. Для чувствительных к ошибкам сценариев (медицина) это всё ещё требует ручной валидации.

Сканы паспортов и удостоверений - оба лидера сильны (94–96%), но особое внимание стоит уделить compliance: отправка персональных документов в стороннее API требует юридической оценки.

Цена

GPT-4o vision: ~0.005-0.015$ за страницу в зависимости от detail-level. Claude 3.5 Sonnet: ~0.005-0.012$ за страницу. На объёме 50k страниц/месяц это $250-700. Старый OCR-стек на ABBYY обходился клиенту в $1.20 за страницу, на Tesseract - бесплатно, но точность была 80–85%.

Что мы делаем в проде сейчас

Печатные документы - мультимодальная модель напрямую, без OCR.
Документы с критичной точностью (медицина, юр) - мультимодаль + правила валидации + human-in-the-loop на сомнительных случаях.
Большие объёмы (1М+ страниц/месяц) - гибрид: дешёвый OCR на основной поток, мультимодаль на проблемные документы.
Персональные данные - self-hosted альтернативы (например, Qwen2-VL) или классический OCR - пока проще обосновать compliance.

Теги

#multimodal#ocr#gpt-4o#claude#документы

Мультимодальные модели для обработки документов: GPT-4o vs Claude 3.5 Sonnet

Старая архитектура: OCR + LLM

Новая: один мультимодальный вызов

Что мы тестировали

Результаты по точности

Цена

Что мы делаем в проде сейчас

Другие статьи из журнала

Tool use в Claude: построили AI-агента для саппорта за 6 недель

Голосовые агенты в B2B: где они реально выигрывают

Computer vision в страховании: 4 кейса и где не сработало

Делаем мобильные приложения, веб-сервисы и AI на заказ