316 чытанні
316 чытанні

Лепшыя мадэлі AI для апрацоўкі рахункаў: параўнання бенчмарка

па Oleg Kokorin6m2025/04/21
Read on Terminal Reader

Занадта доўга; Чытаць

Я выпрабаваў 7 найбольш папулярных мадэляў AI на датцы з 20 рахункаў розных размяшчэнняў, каб убачыць, якія з іх лепшыя для апрацоўкі дакументаў без фіна-тунінгу або прэтрэнінгу.
featured image - Лепшыя мадэлі AI для апрацоўкі рахункаў: параўнання бенчмарка
Oleg Kokorin HackerNoon profile picture
0-item

Я выпрабаваў 7 найбольш папулярных мадэляў AI, каб убачыць, як добра яны апрацоўваюць рахункі з-за кошыка, без любога тонкага намінавання.


Чытайце для таго, каб даведацца:


    І
  • Якая мадэль перавышае ўсе іншыя па меншай меры на 20%
  • І
  • Чаму Google не працуе з структураванымі дадзенымі
  • І
  • Глядзіце, якія мадэлі спраўляюцца з сканамі з нізкім вырашэннем найлепш
  • І

Выпрабаваныя мадэлі

Для таго, каб дасягнуць мэты гэтага тесту, я пачаў пошук мадэляў AI, выкарыстоўваючы гэтыя крэдыты:


    І
  • Популярнасць: Популярныя мадэлі маюць лепшую падтрымку і дакументацыю.
  • І
  • Здаровая касметыка вы можаце зрабіць самі
  • І
  • Інтэграцыя: Паколькі вынікі гэтага тэсту павінны быць выкарыстаны на практыцы, важна, каб у кожнай мадэлі былі магчымасці інтэграцыі API для лёгкай інтэграцыі.
  • І

Я прыбыў на 7 мадэляў AI, выкладзеных ніжэй. Я даў кожнаму з іх псеўданім для зручнасці:


    І
  • Amazon Analyze Expense API, або «AWS»
  • І
  • Azure AI Document Intelligence — фактурная перабудаваная мадэль, або «Azure»
  • І
  • Google Docs AI — «Google» або «Invoice Parser»
  • І
  • GPT-4o API - тэкставы ўвод з 3rd party OCR, або "GPTt"
  • І
  • GPT-4o API - выява ўводу, або «GPTi»
  • І
  • Gemini 2.0 Pro Experimental, або «Gemini»
  • І
  • Deepseek v3 - тэкставы ўвод, або “Deepseek-t”
  • І

Дадатковыя рахункі

Мадэлі былі выпрабаваныя на наборы дадзеных з 20 рахункаў розных размяшчэнняў і гадоў выдачы (з 2006 па 2020).


ІГод на выкананне рахункуІ2006 — 2010 6І2011 — 2015 42016 — 2020 10І
Год на выкананне рахункуІ2006 — 2010 6І2011 — 2015 4І2016 — 2020 10ІГод на выкананне рахункуГод распрацоўкі

Год распрацоўкі

І

Колькасць рахункаў

Колькасць рахункаў

2006 — 2010 6І

2006 — 2010 год

2006 — 2010 год

6

6

2011 — 2015 42011 — 2015 год

2011 — 2015 год

4

4

2016 — 2020 102016 — 2020

2016 — 2020

10

10


Методыка

Аналізуючы кожную рахунку, я вызначыў спіс 16 ключавых полей, якія з'яўляюцца агульнымі для ўсіх рахункаў і ўтрымліваюць найбольш важныя дадзеныя:


Invoice Id, Invoice Date, Net Amount, Tax Amount, Total Amount, Due Date, Purchase Order, Payment Terms, Customer Address, Customer Name, Vendor Address, Vendor Name, Item: Description, Item: Quantity, Item: Unit Price, Item: Amount.


Мадэлі LLM (GPT, DeepSeek, і Gemini) былі спецыяльна запрашаны, каб вярнуць вынікі, выкарыстоўваючы гэтыя агульныя назвы полей.

Вынікі пошуку - Detection Items

Для кожнага рахунку я ацэньваў, як добра мадэлі вылучалі полы ключавых элементаў:


Description, Quantity, Unit Price, Total Price

Эфектыўныя метрыкі

Я выкарыстоўваў ваганую метрыку эфектыўнасці (Eff, %) для ацэнкі дакладнасці экстракцыі.


Строгі асноўныя поля: Точныя адпачынкі, такія як ідэнтыфікатар рахунку, даты і г.д.


Нешматлікія асноўныя поля: Частка адпачынку дапускаецца, калі падобнасць (RLD, %) перавышае прагноз.


Усё, што вам трэба зрабіць, гэта проста адзначце файлы, і вы ўсё бяспечна.

Формулы

Агульная эфектыўнасць (Eff, %): Eff, % = (COUNTIF(строгі ess. поля, пазітыўныя) + COUNTIF(не-строгі ess. поля, пазітыўныя, калі RLD > RLD пагроза) + COUNTIF(элементы, пазітыўныя)) / ((COUNT(усе поля) + COUNT(усе элементы)) * 100


Эфектыўнасць на ўзроўні элементаў (Eff-I, %): Eff-I, % = Позитивная IF (ALL(Колькасць, адзінкавая цана, сума - пазітыўная) І RLD(Апісанне) > Прагроза RLD) * 100

Узнагароджанне рахункаў

Эфектыўнасць вывучэння дадзеных (за выключэннем элементаў)


Эфектыўнасць вывучэння дадзеных (уключаючы элементы)


Note: Вынікі Google выпушчаны з гэтага, таму што Google не атрымаў элементы правільна.

Топ Інтэрнэт

Azure не найлепшы з апісаннямі элементаў.

Дар’я адзначае, што новы фундамент мае фактуру “караед”, якой у ХІХ стагоддзі быць не магло.


Гэтая праблема значна ўплывала на эфектыўнасць Azure на гэтым рахунку, які быў значна ніжэй (33,3%) у параўнанні з іншымі мадэлямі.


💡 Azure’s inability to parse multi-word descriptions in structured fields highlights a critical limitation compared to competitors.

Нізкая выразнасць рахункаў практычна не ўплывае на якасць выяўлення.

У нашай багатай беларускай літаратуры няма другога такога твора, які па энцыклапедычнасці выяўлення ў ім нацыянальнага, так набліжаўся б да "Новай зямлі".


💡 Modern OCR and AI models are robust to resolution issues, though rare formatting errors may occur.

Google не выконвае задачы.

Google аб'ядноўвае усе полы элементаў у адзін сцяг, што робіць немагчымае параўноўванне вынікаў з іншымі мадэлямі.


Актуальныя факты:


Усе іншыя паслугі маюць 100% правільнае выяўленне з распаўсюджваннем па атрыбутах.


💡 Google’s AI is not capable of extracting structured data without fine-tuning.

Многія лініі апісання элементаў не ўплывалі на якасць выяўлення.

💡 Except for Google AI’s case above, multi-line item descriptions did not negatively impact detection quality across all models.

Дзеці маюць найлепшую «павагу да дэталяў».

LLMs, такія як GPT, Gemini, і DeepSeek могуць быць запрашаны, каб вытрымаць больш дадзеных, чым перабудаваныя мадэлі прызнання рахункаў. З усіх LLMs, Gemini мае лепшую дакладнасць, калі справа даходзіць да вытрымання дадатковых дадзеных з элементаў рахункаў. GPT часта вытрымалі правільныя полы, але няправільныя значэнні полей, і DeepSeek выконваў найгоршы з 3 мадэляў з найбольшай дакладнасцю вытрымання палявых значэнняў.


Прыкладныя факты:


Gemini results:

Accurate results


Вынікі GPT:

Same attributes but inaccurate values


Вынікі DeepSeek:

Most of values are incorrect or absent, bad text in text attributes


💡 Gemini has the highest items extraction accuracy compared to other LLMs: it extracts all fields, not just the standard ones, and has the highest accuracy in preserving text and numerical values.

Параўнанне затрат

Я вылічыў кошт апрацоўкі 1000 рахункаў кожнай мадэлі, а таксама сярэдні кошт апрацоўкі аднаго рахунку:


ІКошт паслугі Кошт па старонцы (у сярэднім выразе) AWS $10 / 1000 страницы (1) $0.01 Azure AI Document Intelligence $10 / 1000 страницы $0.01 Google Document AI $10 / 1000 страницы $0.01 "GPTT": GPT-4o API, тэкставы ўвод з 3rd party OCR $2.50 / 1M ўводныя токены, $10.00 / 1M выхадныя токены (2) $0.021 "GPTI": GPT-4o толькі $2.50 / 1M ўводныя токены, $10.00 / 1M выхадныя токены $0.0087 Gemini Pro 2.0 $1.25, ўводныя токены ≤ 128k токены$2.50, ўводныя токены > 128k токены$5.00, выхадныя токены ≤ 128k токены$
Кошт службы на старонку (асяроддзе)ІAWS $10 / 1000 старон (1) $0.01ІAzure AI Document Intelligence $10 / 1000 страниц $0.01ІGoogle Docs AI $10 / 1000 страниц $0.01І“GPTT”: GPT-4o API, тэкставы ўваход з 3rd party OCR $2.50 / 1M ўваходныя токены, $10.00 / 1M выхадныя токены (2) $0.021І“GPTI”: GPT-4o толькі $2.50 / 1M ўваходныя токены, $10.00 / 1M выхадныя токены $0.0087ІGemini 2.0 Pro $1.25, папярэднія пампаты ≤ 128k токены$2.50, папярэднія пампаты > 128k токены$5.00, выхадныя пампаты ≤ 128k токены$10.00, выхадныя пампаты > 128k токены $0.0045ІDeepseek v3 API $10 / 1000 страницы + $0.27 / 1M входныя токены, $1.10 / 1M выхадныя токены $0.011ІКошт службы на старонку (асяроддзе)І

Службы

Службы

Кошт

Кошт

Кошт на старонку (асяроддзе)

Кошт на старонку (асяроддзе)

AWS $10 / 1000 старон (1) $0.01AWS

AWS

AWSІ

$10 / 1000 старон (1)

$10 / 1000 старон (1)

І

Усяго 0.01

Усяго 0.01

Azure AI Document Intelligence $10 / 1000 страниц $0.01Загрузіць Azure Document Intelligence

Azure AI Document Intelligence

Загрузіць Azure Document Intelligence$10 / 1000 фотаздымкаў

$10 / 1000 pages

І

Усяго 0.01

Усяго 0.01

Google Docs AI $10 / 1000 страниц $0.01Google Docs

Google Document AI

Google Docs$10 / 1000 фотаздымкаў

$10 / 1000 фотаздымкаў

І

Усяго 0.01

Усяго 0.01

“GPTT”: GPT-4o API, тэкставы ўваход з 3rd party OCR $2.50 / 1M ўваходныя токены, $10.00 / 1M выхадныя токены (2) $0.021«GPTT»: GPT-4o API, тэкставы ўвод з OCR 3-й партыі

“GPTT”: GPT-4o API, text input with 3rd party OCR

«ГПТ»:

$2.50 / 1M ўступныя токены, $10.00 / 1M выхадныя токены (2)

$2.50 / 1M input tokens, $10.00 / 1M output tokens (2)

0 0 0 21

$0.021

“GPTI”: GPT-4o толькі $2.50 / 1M ўваходныя токены, $10.00 / 1M выхадныя токены $0.0087І

«GPTI»: толькі GPT-4o

“GPTI”: GPT-4o only

«GPTI»: толькі GPT-4o$2.50 / 1M ўступныя токены, $10.00 / 1M выхадныя токены

$2.50 / 1M ўступныя токены, $10.00 / 1M выхадныя токены

І

З тых часоў прайшло гадоў. 0087

З тых часоў прайшло гадоў. 0087

Gemini 2.0 Pro $1.25, папярэднія пампаты ≤ 128k токены$2.50, папярэднія пампаты > 128k токены$5.00, выхадныя пампаты ≤ 128k токены$10.00, выхадныя пампаты > 128k токены $0.0045Загрузіць Gemini 2.0 Pro

Gemini 2.0 Pro

Загрузіць Gemini 2.0 ProІ

$1,25, імпульсы ўводу ≤ 128k токены$2,50, імпульсы ўводу > 128k токены$5,00, імпульсы выхаду ≤ 128k токены$10,00, імпульсы выхаду > 128k токены

$1,25, імпульсы ўводу ≤ 128k токены$2,50, імпульсы ўводу > 128k токены$5,00, імпульсы выхаду ≤ 128k токены$10,00, імпульсы выхаду > 128k токены

І

0 0 45

0 0 45

ІСцягнуць Deepseek v3І$10 / 1000 старон + $0.27 / 1M ўступныя токены, $1.10 / 1M выхадныя токеныІ

0 0 0 11

Сцягнуць Deepseek v3

Deepseek v3 API

Сцягнуць Deepseek v3І

$10 / 1000 старон + $0.27 / 1M ўступныя токены, $1.10 / 1M выхадныя токены

$10 / 1000 старон + $0.27 / 1M ўступныя токены, $1.10 / 1M выхадныя токены

І

0 0 0 11

0 0 0 11


Notes:

(1) — $8 / 1000 страниц после одного миллиона за месяц

(2) — Additional $10 per 1000 pages for using a text recognition model

Ключавыя вынікі

Most Efficient: Gemini and GPT-4o are leading in efficiency and consistency of extraction across all invoices.

Worst performerСярод версій гульняў онлайн call of duty можна знайсці мноства займальных і дасціпных сюжэтаў, а апошняй навінкай, выпушчанай у канцы восені гэтага года, стала гульня Call of Duty: Ghost.

Least ReliableАгулам, для мяне гэта тэкст — аб’яднаны, аформлены візуальна і вербальна.

Якая мадэль лепшая для чаго?

✅ Gemini, AWS або Azure для вывучэння дадзеных высокай дакладнасці.

✅ GPT-4o (текст-інтэрв'ю з трэцяй сторонай OCR) для каштоўнага прызнання рахункаў і вялікага балансу "кошт-эфектыўнасць".

🔸 Выключайце Google AI, калі вам трэба вылучаць элементы з высокай дакладнасцю.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks