В мае OpenAI выпустила GPT-4o с нативной обработкой изображений. В июне Anthropic - Claude 3.5 Sonnet с заметно усиленным vision. Это меняет архитектуру обработки документов. Делимся бенчмарком на наших задачах.
Старая архитектура: OCR + LLM
Стандартный пайплайн до 2024-го: PDF → OCR (Tesseract, AWS Textract, ABBYY) → текст → LLM для извлечения структуры. Минусы: OCR теряет таблицы и колонки, LLM не видит layout, много шагов = много мест поломки.
Новая: один мультимодальный вызов
PDF → разбиваем на страницы-картинки → отправляем каждую как image в GPT-4o или Claude 3.5 → получаем JSON с полями. Меньше движущихся частей, модель видит layout и понимает контекст.
Что мы тестировали
- Счета на услуги (RU): 200 документов, 14 полей.
- Накладные с таблицами (RU): 80 документов, 6 полей + табличная часть.
- Договоры (RU/EN): 30 документов, извлечение сторон, сумм, сроков.
- Рукописные заявки на медицинский осмотр: 60 документов.
- Сканы паспортов и водительских удостоверений: 100 документов.
Результаты по точности
На печатных счетах оба лидера (GPT-4o и Claude 3.5 Sonnet) дают 95–97% правильных полей. Разница в пределах шума. На сложных таблицах Claude 3.5 заметно лучше держит структуру.
На рукописных документах ситуация хуже. GPT-4o - 71% точность, Claude 3.5 - 68%. Для чувствительных к ошибкам сценариев (медицина) это всё ещё требует ручной валидации.
Сканы паспортов и удостоверений - оба лидера сильны (94–96%), но особое внимание стоит уделить compliance: отправка персональных документов в стороннее API требует юридической оценки.
Цена
GPT-4o vision: ~0.005-0.015$ за страницу в зависимости от detail-level. Claude 3.5 Sonnet: ~0.005-0.012$ за страницу. На объёме 50k страниц/месяц это $250-700. Старый OCR-стек на ABBYY обходился клиенту в $1.20 за страницу, на Tesseract - бесплатно, но точность была 80–85%.
Что мы делаем в проде сейчас
- Печатные документы - мультимодальная модель напрямую, без OCR.
- Документы с критичной точностью (медицина, юр) - мультимодаль + правила валидации + human-in-the-loop на сомнительных случаях.
- Большие объёмы (1М+ страниц/месяц) - гибрид: дешёвый OCR на основной поток, мультимодаль на проблемные документы.
- Персональные данные - self-hosted альтернативы (например, Qwen2-VL) или классический OCR - пока проще обосновать compliance.