Лучшие модели ИИ для обработки счетов: сравнения бенчмарков

Я тестировал 7 самых популярных моделей ИИ, чтобы увидеть, насколько хорошо они обрабатывают счета-фактуры вне коробки, без каких-либо тонкостей.

Читайте для того, чтобы узнать:

Какая модель превосходит все остальные по крайней мере на 20%
Почему Google не работает со структурированными данными
Узнайте, какие модели лучше всего справляются со сканерами низкого разрешения

Проверенные модели

Чтобы достичь цели этого теста, я начал поиск моделей ИИ, используя эти критерии:

Популярность: Популярные модели имеют лучшую поддержку и документацию.
Invoice Processing Capability: The model needs to be able to process invoices from the get-go, without fine-tuning or training the API.
Интеграция: Поскольку результаты этого теста предназначены для использования на практике, важно, чтобы у каждой модели были возможности интеграции API для легкой интеграции.

Я приземлился на 7 моделях ИИ, изложенных ниже. Я дал каждому из них прозвище для удобства:

Amazon Analyze Expense API, or “AWS”
Azure AI Document Intelligence — фактурная предварительная модель, или «Azure»
Google Document AI — «Fact Parser» или «Google»
GPT-4o API — ввод текста с OCR третьей стороны, или «GPTt»
GPT-4o API - image input, or “GPTi”
Gemini 2.0 Pro Experimental или «Джемини»
Deepseek v3 — ввод текста, или «Deepseek-t»

Invoice Dataset

Модели тестировались на наборе данных из 20 счетов-фактур различных размеров и годов выпуска (с 2006 по 2020 год).

Год Количество фактур→→

2006 — 2010	6
2011 — 2015	4
→ 2016 — 2020	10

Год Количество фактур→2006 — 2010→6→→2011 — 2015 4→→→

2016 — 2020

→10→→Год Количество фактурСчетный год

Счетный год

Количество фактур

→2006 — 2010→6→2006 — 2010

2006 — 2010

2011 — 2015 4→

2011 — 2015

→

→2016 — 2020→10→→

2016 — 2020

Методология

Анализируя каждый счет, я определил список из 16 ключевых полей, которые являются общими для всех счетов-фактур и содержат самые важные данные:

Invoice Id, Invoice Date, Net Amount, Tax Amount, Total Amount, Due Date, Purchase Order, Payment Terms, Customer Address, Customer Name, Vendor Address, Vendor Name, Item: Description, Item: Quantity, Item: Unit Price, Item: Amount.

Fields extracted by the models were mapped to a common naming convention to ensure consistency. LLM models (GPT, DeepSeek, and Gemini) were specifically asked to return the results using these common field names.

Выявление предметов фактуры

Для каждого счета-фактуры я оценивал, насколько хорошо модели извлекали поля ключевых элементов:

Description, Quantity, Unit Price, Total Price

Эффективность метрики

I’ve used a weighted efficiency metric (Eff, %) to assess the accuracy of extraction. This metric combines:

Строго необходимые поля: точные совпадения, такие как идентификатор счета-фактуры, даты и т.д.

Нестрогие основные поля: Частичные совпадения разрешены, если сходство (RLD, %) превышает порог.

Элементы счета-фактуры: оцениваются как правильные только в том случае, если все атрибуты элементов извлечены правильно.

Формулы

Общая эффективность (Eff, %): Eff, % = (COUNTIF(поля строгих эс. положительные) + COUNTIF(поля не строгих эс. положительные, если RLD > порог RLD) + COUNTIF(элементы, положительные)) / ((COUNT(все поля) + COUNT(все элементы)) * 100

Item-Level Efficiency (Eff-I, %): Eff-I, % = Positive IF (ALL(Quantity, Unit Price, Amount - positive) AND RLD(Description) > RLD threshold) * 100

Результаты признания счетов

Эффективность извлечения данных (за исключением элементов)

Эффективность извлечения данных (включая элементы)

NoteРезультаты Google исключены из этого, так как Google не смог правильно извлечь элементы.

Топ Инсайт

Azure не лучший с описаниями элементов.

В этом счете Azure не удалось обнаружить полные названия элементов, узнав только первые имена, в то время как другие модели успешно идентифицировали полные имена во всех 12 элементах.

Эта проблема значительно повлияла на эффективность Azure на этом счете, который был заметно ниже (33,3%) по сравнению с другими моделями.

💡 Azure’s inability to parse multi-word descriptions in structured fields highlights a critical limitation compared to competitors.

Низкое разрешение счетов практически не влияет на качество обнаружения.

Низкое разрешение (как воспринимается человеческим глазом) счетов-фактур в целом не ухудшало качество обнаружения. Низкое разрешение в основном приводит к незначительным ошибкам распознавания, например, в одном из счетов-фактур Deepseek спутал комму с точкой, приводя к неправильному численному значению.

💡 Modern OCR and AI models are robust to resolution issues, though rare formatting errors may occur.

Google не может обнаружить предметы.

Google объединяет все поля элементов в одну строку, что делает невозможным сравнение результатов с другими моделями.

Актуальные расчеты:

Все остальные сервисы имеют 100% правильное обнаружение с делением по атрибутам.

💡 Google’s AI is not capable of extracting structured data without fine-tuning.

Многолинейные описания элементов не повлияли на качество обнаружения.

💡 Except for Google AI’s case above, multi-line item descriptions did not negatively impact detection quality across all models.

Близнецы обладают наилучшим «вниманием к деталям».

LLM, такие как GPT, Gemini и DeepSeek, могут быть запрошены для извлечения большего количества данных, чем предварительно построенные модели распознавания счетов-фактур. Среди всех LLM, Gemini имеет лучшую точность, когда дело доходит до извлечения дополнительных данных из пунктов счетов-фактур.

Примерная фактура:

Результаты Gemini:

Результаты GPT:

Результаты DeepSeek:

💡 Gemini has the highest items extraction accuracy compared to other LLMs: it extracts all fields, not just the standard ones, and has the highest accuracy in preserving text and numerical values.

Сравнение затрат

Я рассчитал стоимость обработки 1000 счетов по каждой модели, а также среднюю стоимость обработки одного счета:

→Стоимость услуги (средняя) AWS $10 / 1000 страницы (1) $0.01 Azure AI Document Intelligence $10 / 1000 страницы $0.01 Google Document AI $10 / 1000 страницы $0.01 "GPTT": GPT-4o API, ввод текста с третьей стороной OCR $2.50 / 1M входные токены, $10.00 / 1M выходные токены (2) $0.021 "GPTI": GPT-4o только $2.50 / 1M входные токены, $10.00 / 1M выходные токены $0.0087 Gemini Pro 2.0 $1.25, входные токены ≤ 128k токены$2.50, входные токены > 128k токены$5.00, выходные токены ≤ 128k токены$10.00, выходные токены > 128k

Стоимость услуги (средняя) AWS $10 / 1000 страницы (1) $0.01 Azure AI Document Intelligence $10 / 1000 страницы $0.01 Google Document AI $10 / 1000 страницы $0.01 "GPTT": GPT-4o API, ввод текста с третьей стороной OCR $2.50 / 1M входные токены, $10.00 / 1M выходные токены (2) $0.021 "GPTI": GPT-4o только $2.50 / 1M входные токены, $10.00 / 1M выходные токены $0.0087 Gemini Pro 2.0 $1.25, входные токены ≤ 128k токены$2.50, входные токены > 128k токены$5.00, выходные токены ≤ 128k токены$10.00, выходные токены > 128kСтоимость услуги за страницу (средняя стоимость)Сервис

Сервис

стоимость

Стоимость на страницу (в среднем)

AWS $10 / 1000 страниц (1) $0.01AWS

AWS

AWS→

$10 / 1000 страниц (1)

Доллар 0.01

$0.01

→Сервис Azure Document Intelligence→$10 / 1000 страниц→Доллар 0.01→→

Azure AI Document Intelligence

Сервис Azure Document Intelligence→

$10 / 1000 страниц

→

$0.01

Доллар 0.01

→Google Документы AI→$10 / 1000 страниц→Доллар 0.01→Google Документы AI

Google Document AI

Google Документы AI→

$10 / 1000 страниц

Доллар 0.01

«GPTT»: GPT-4o API, ввод текста с третьей стороной OCR $2.50 / 1M токенов ввода, $10.00 / 1M токенов выхода (2) $0.021

«GPTT»: GPT-4o API, ввод текста с OCR третьей стороны

“GPTT”: GPT-4o API, text input with 3rd party OCR

«ГПТ»:→

$2.50 / 1M input tokens, $10.00 / 1M output tokens (2)

$2.50 / 1М входные токены, $10.00 / 1М выходные токены (2)

$0 021

«GPTI»: GPT-4o только $2.50 / 1M входные токены, $10.00 / 1M выходные токены $0.0087«GPTI»: только GPT-4o

“GPTI”: GPT-4o only

«GPTI»: только GPT-4o→

$2.50 / 1М входные токены, $10.00 / 1М выходные токены

→

$0.0087

$0 0087

→Модель Gemini 2.0 Pro→

$1,25, входные просьбы ≤ 128k токенов
$2.50, input prompts > 128k tokens
$5,00, просьбы о выходе ≤ 128k токенов
$10.00, просьбы о выходе > 128k токенов

→→

$0 0045

→Модель Gemini 2.0 Pro

Gemini 2.0 Pro

Gemini 2.0 Pro→

$1,25, входные просьбы ≤ 128k токенов
$2,50, запросы на ввод > 128k токенов
$5,00, просьбы о выходе ≤ 128k токенов
$10.00, просьбы о выходе > 128k токенов

→

$0 0045

→

Deepseek v3 API

→

$10 / 1000 страниц + $0.27 / 1М токенов ввода, $1.10 / 1М токенов вывода

$0 011

Deepseek v3 API

Deepseek v3 API

Deepseek v3 API→

$10 / 1000 страниц + $0.27 / 1М токенов ввода, $1.10 / 1М токенов вывода

$10 / 1000 pages + $0.27 / 1M input tokens, $1.10 / 1M output tokens

$0 011

Notes:

(1) — $8 / 1000 страниц после одного миллиона в месяц

(2) — Additional $10 per 1000 pages for using a text recognition model

Ключевые находки

Most EfficientGemini и GPT-4o являются лидерами по эффективности и последовательности добычи по всем счетам.

⚠️ Worst performerGoogle AI является худшим из всех проверенных моделей, когда дело доходит до извлечения предметов, что делает общий балл эффективности низким.

Least Reliable: DeepSeek showed frequent mistakes in text and numerical values.

Какая модель лучше для чего?

✅ Gemini, AWS или Azure для высокоточного извлечения данных.

✅ GPT-4o (ввод текста с сторонним OCR) для экономически эффективного распознавания счетов-фактур и отличного баланса «стоимость-эффективность».

Избегайте Google AI, если вам нужно извлечь элементы с высокой точностью.

Лучшие модели ИИ для обработки счетов: сравнения бенчмарков

Слишком долго; Читать

Проверенные модели

Invoice Dataset

Методология

Выявление предметов фактуры