295 ການອ່ານ

ໂມເລກຸນ AI ທີ່ດີທີ່ສຸດສໍາລັບການປິ່ນປົວບັນຊີລາຍຊື່: Benchmark Comparisons

ໂດຍ Oleg Kokorin6m2025/04/21
Read on Terminal Reader

ຍາວເກີນໄປ; ອ່ານ

ຂ້າພະເຈົ້າໄດ້ທົດສອບ 7 ໂມເລກຸນ AI ທີ່ດີທີ່ສຸດໃນຊຸດຂໍ້ມູນຂອງ 20 ໂມເລກຸນຂອງຮູບແບບຕ່າງໆເພື່ອຊອກຫາຜູ້ທີ່ດີທີ່ສຸດໃນການປິ່ນປົວເອກະສານໂດຍບໍ່ມີການປັບປຸງຫຼືການຝຶກອົບຮົມ.
featured image - ໂມເລກຸນ AI ທີ່ດີທີ່ສຸດສໍາລັບການປິ່ນປົວບັນຊີລາຍຊື່: Benchmark Comparisons
Oleg Kokorin HackerNoon profile picture
0-item

ຂ້າພະເຈົ້າໄດ້ທົດສອບ 7 ໂມເລກຸນ AI ທີ່ດີທີ່ສຸດເພື່ອເບິ່ງວ່າພວກເຂົາເຈົ້າມີຄຸນນະສົມບັດທີ່ດີທີ່ສຸດໃນການປິ່ນປົວບັນຊີລາຍລະອຽດໂດຍບໍ່ມີການປິ່ນປົວ.


ດາວນ໌ໂຫລດ


    ພາສາລາວ
  • ໂມເລກຸນທີ່ຕອບສະຫນອງທັງຫມົດຂອງອື່ນໆໃນໄລຍະ 20%
  • ພາສາລາວ
  • ເປັນຫຍັງ Google AI ບໍ່ເຮັດວຽກກັບຂໍ້ມູນ structured
  • ພາສາລາວ
  • ດາວນ໌ໂຫລດ The Best Low-Resolution Scans
  • ພາສາລາວ

ຮູບແບບການທົດສອບ

ເພື່ອສະຫນັບສະຫນູນຄວາມຕ້ອງການຂອງການທົດສອບນີ້, ຂ້າພະເຈົ້າໄດ້ເລີ່ມຕົ້ນການຊອກຫາຮູບແບບ AI ໂດຍໃຊ້ມາດຕະຖານນີ້:


    ພາສາລາວ
  • Popularity: ຮູບແບບທີ່ດີທີ່ສຸດມີສະຫນັບສະຫນູນແລະເອກະສານທີ່ດີກວ່າ.
  • ພາສາລາວ
  • ຄວາມສາມາດໃນການປິ່ນປົວບັນຊີລາຍການ: ໂມເລກຸນຄວນຈະສາມາດປິ່ນປົວບັນຊີລາຍການຈາກ get-go, ໂດຍບໍ່ມີການປັບປຸງຫຼືການຝຶກອົບຮົມ API.
  • ພາສາລາວ
  • ການເຊື່ອມຕໍ່: ເນື່ອງຈາກວ່າຜົນປະໂຫຍດຂອງການທົດສອບນີ້ແມ່ນຖືກນໍາໃຊ້ໃນທົດສອບ, ມັນເປັນສິ່ງທີ່ສໍາຄັນສໍາລັບແຕ່ລະຮູບແບບທີ່ຈະມີຄວາມສາມາດຂອງການເຊື່ອມຕໍ່ API ສໍາລັບການເຊື່ອມຕໍ່ງ່າຍ.
  • ພາສາລາວ

ຂ້າພະເຈົ້າໄດ້ຈຸດປະສົງໃນ 7 ໂມເລກຸນ AI ທີ່ຖືກຂຽນຂ້າງລຸ່ມນີ້. ຂໍຂອບໃຈວ່າພວກເຮົາມີແຕ່ລະຄົນມີຊື່ສຽງສໍາລັບຄວາມງ່າຍດາຍ:


  • Amazon Analyze Expense API, or “AWS
  • ພາສາລາວ
  • Azure AI Document Intelligence - ໂຮງງານຜະລິດ Prebuilt Model, ຫຼື "Azure"
  • ພາສາລາວ
  • Google Docs AI - Invoice Parser, ຫຼື "Google"
  • API GPT-4o - ການເຂົ້າລະຫັດລະຫັດທີ່ມີ OCR ຂອງ 3rd party, ຫຼື "GPTt"
  • ພາສາລາວ
  • GPT-4o API - ການເຂົ້າລະຫັດຮູບພາບ, ຫຼື "GPTi"
  • ພາສາລາວ
  • Gemini 2.0 Pro Experimental, or “Gemini
  • ພາສາລາວ
  • Deepseek v3 - ການເຂົ້າລະຫັດເອກະສານ, ຫຼື "Deepseek-t"
  • ພາສາລາວ

Invoice Dataset

The models were tested on a dataset of 20 invoices of various layouts and years of issue (from 2006 to 2020).


ພາສາລາວຊື່ຫຍໍ້ຂອງ : Year Number of Invoices2006 - 2010 6ພາສາລາວພາສາລາວ

ພາສາລາວ

ພາສາລາວ
ສິງຫາ 2016ພາສາລາວ
ຊື່ຫຍໍ້ຂອງ : Year Number of Invoices2006 - 2010 6ພາສາລາວສິງຫາ 2015 4ພາສາລາວສິງຫາ 2016ພາສາລາວພາສາລາວພາສາລາວຊື່ຫຍໍ້ຂອງ : Year Number of Invoicesພາສາລາວ

ພາສາລາວ

ພາສາລາວ

ລະຫັດ QR

ລະຫັດ QR

2006 - 2010 6ພາສາລາວ

ພາສາລາວ

ພາສາລາວ

ພາສາລາວ

ພາສາລາວ

ສິງຫາ 2015 4

ພາສາລາວ

ພາສາລາວ

ພາສາລາວ

ພາສາລາວ

ພາສາລາວ

ພາສາລາວສິງຫາ 2016ພາສາລາວພາສາລາວພາສາລາວສິງຫາ 2016

ສິງຫາ 2016

ພາສາລາວ

ພາສາລາວ


ວິທີການ

ການທົດສອບບັນຊີລາຍລະອຽດທັງຫມົດ, ຂ້າພະເຈົ້າໄດ້ຄົ້ນຄວ້າບັນຊີລາຍລະອຽດຂອງ 16 ພື້ນທີ່ສໍາຄັນທີ່ເປັນປົກກະຕິໃນທັງຫມົດບັນຊີລາຍລະອຽດແລະປະກອບມີຂໍ້ມູນທີ່ສໍາຄັນທີ່ສຸດ:


Invoice Id, Invoice Date, Net Amount, Tax Amount, Total Amount, Due Date, Purchase Order, Payment Terms, Customer Address, Customer Name, Vendor Address, Vendor Name, Item: Description, Item: Quantity, Item: Unit Price, Item: Amount.


ພື້ນທີ່ໄດ້ຮັບການຊອກຫາໂດຍຮູບແບບໄດ້ຖືກກວດສອບກັບມາດຕະຖານຄ້າຍຄືກັນເພື່ອຮັບປະກັນຜົນປະໂຫຍດ. ຮູບແບບ LLM (GPT, DeepSeek, ແລະ Gemini) ໄດ້ຮັບປະໂຫຍດຢ່າງກວ້າງຂວາງເພື່ອໃຫ້ເຫັນຜົນປະໂຫຍດໂດຍໃຊ້ຊື່ພື້ນທີ່ທົ່ວໄປນີ້.

ຊື່ຫຍໍ້ຂອງ : Detection Items

ສໍາລັບແຕ່ລະອຽດອະນຸຍາດ, ຂ້າພະເຈົ້າໄດ້ຄາດຄະເນດິນດີຕ້ອນຮັບວ່າຮູບແບບໄດ້ຊັດເຈນ fields ທີ່ສໍາຄັນ:


Description, Quantity, Unit Price, Total Price

ປະສິດທິພາບ Metrics

ຂ້າພະເຈົ້າໄດ້ນໍາໃຊ້ metric ປະສິດທິພາບ weighted (Eff, %) ເພື່ອກວດສອບຄວາມຖືກຕ້ອງຂອງ extrusion. metric ນີ້ປະກອບດ້ວຍ:


ສະຫນັບສະຫນູນທີ່ສໍາຄັນ: ສະຫນັບສະຫນູນທີ່ແທ້ຈິງ, ເຊັ່ນ ID ໂທລະສັບ, ວັນທີ, ແລະອື່ນໆ


ພື້ນທີ່ທີ່ສໍາຄັນທີ່ບໍ່ແມ່ນຄຸນນະສົມບັດ: ຄຸນນະສົມບັດ partial ສາມາດໄດ້ຮັບການອະນຸຍາດຫຼັງຈາກນັ້ນທີ່ຄຸນນະສົມບັດ (RLD, %) ຫຼາຍກ່ວາແຜ່ນ.


ຜະລິດຕະພັນອຸປະກອນ: ການຄາດຄະເນດຽວກັນໂດຍບໍ່ມີການຄາດຄະເນດຽວກັນໂດຍບໍ່ມີການຄາດຄະເນດຽວກັນໂດຍບໍ່ມີການຄາດຄະເນດິນ.

ລະຫັດ QR

ປະສິດທິພາບທັງຫມົດ (Eff, %): ປະສິດທິພາບ, % = (COUNTIF( fields strict ess, positive) + COUNTIF( fields non-strict ess, positive if RLD > threshold RLD) + COUNTIF(object, positive)) / ((COUNT(all fields) + COUNT(all items)) * 100


Item-Level Efficiency (Eff-I, %): Eff-I, % = Positive IF (ALL(Quantity, Unit Price, Amount - positive) AND RLD(Description) > RLD threshold) * 100

ການຢັ້ງຢືນບັນຊີລາຍຊື່

ປະສິດທິພາບການຊໍາລະເງິນຂໍ້ມູນ (ລວມທັງ item)


ປະສິດທິພາບການຊອກຫາຂໍ້ມູນ (including items)


Note: Google’s results are omitted from this as Google failed to extract items properly.

ປະເພດ Top Insights

Azure ບໍ່ແມ່ນທີ່ດີທີ່ສຸດກັບຄໍາແນະນໍາ item.

ໃນລາຍລະອຽດນີ້, Azure ໄດ້ບໍ່ສາມາດຊອກຫາຊື່ສ່ວນໃຫຍ່ໂດຍບໍ່ຮູ້ສຶກພຽງແຕ່ຊື່ຕົ້ນ, ໃນຂະນະທີ່ມາດຕະຖານອື່ນໆໄດ້ຊອກຫາຊື່ສ່ວນໃຫຍ່ໃນທຸກ 12 ຂໍ້ມູນ.


ການບັນທຶກນີ້ໄດ້ບັນລຸຜົນປະໂຫຍດເພີ່ມເຕີມກ່ຽວກັບປະສິດທິພາບຂອງ Azure ໃນລາຍລະອຽດນີ້, ເຊິ່ງແມ່ນຕ່ໍາກວ່າ (33.3%) compared ກັບຮູບແບບອື່ນໆ.


💡 Azure’s inability to parse multi-word descriptions in structured fields highlights a critical limitation compared to competitors.

ຄວາມຖືກຕ້ອງຕ່ໍາຂອງບັນຊີລາຍໄດ້ຢ່າງງ່າຍດາຍບໍ່ມີຜົນປະໂຫຍດກ່ຽວກັບຄຸນນະພາບຂອງການຊອກຫາ.

Low resolution (as perceived by the human eye) of invoices generally did not degrade detection quality. The low resolution mainly results in minor recognition mistakes, for example, in one of the invoices, Deepseek mistook a comma for a dot, leading to an incorrect numerical value.


💡 Modern OCR and AI models are robust to resolution issues, though rare formatting errors may occur.

Google ບໍ່ສາມາດຊອກຫາອຸປະກອນ

Google combines all item fields into a single string, which makes it impossible to compare the results to other models.


ລະຫັດ QR


ການບໍລິການອື່ນໆທັງຫມົດມີການຄົ້ນຄວ້າທີ່ຖືກຕ້ອງ 100% ມີການປິ່ນປົວໂດຍຄຸນນະພາບ.


💡 Google’s AI is not capable of extracting structured data without fine-tuning.

ຮູບພາບ ສໍາ ລັບ Multi-Line Object Descriptions ທີ່ບໍ່ມີຜົນກະທົບໃນຄຸນນະພາບຂອງການຊອກຫາ.

💡 Except for Google AI’s case above, multi-line item descriptions did not negatively impact detection quality across all models.

Gemini ມີທີ່ດີທີ່ສຸດ "ຄວາມຮູ້ສຶກກັບລາຍລະອຽດ".

LLMs ເຊັ່ນ GPT, Gemini, ແລະ DeepSeek ສາມາດໄດ້ຮັບການຝຶກອົບຮົມທີ່ຈະຊອກຫາຂໍ້ມູນເພີ່ມເຕີມກ່ວາມາດຕະຖານການຢັ້ງຢືນທີ່ຖືກສ້າງຕັ້ງຂຶ້ນ. ໃນລະຫວ່າງ LLMs ທັງຫມົດ, Gemini ມີຄວາມແມ່ນຍໍາທີ່ດີທີ່ສຸດໃນຂະນະທີ່ຂ້າພະເຈົ້າຊອກຫາຂໍ້ມູນເພີ່ມເຕີມຈາກເອກະສານຢັ້ງຢືນ.


ຮູບພາບ ສໍາ ລັບ Example:


ຄວາມຄິດເຫັນທີ່ Gemini:

Accurate results


ຜົນປະໂຫຍດ GPT:

Same attributes but inaccurate values


ດາວນ໌ໂຫລດ DeepSeek

Most of values are incorrect or absent, bad text in text attributes


💡 Gemini has the highest items extraction accuracy compared to other LLMs: it extracts all fields, not just the standard ones, and has the highest accuracy in preserving text and numerical values.

ຄ່າໃຊ້ຈ່າຍ Comparison

ຂ້າພະເຈົ້າກໍານົດຄ່າໃຊ້ຈ່າຍຂອງການປິ່ນປົວ 1000 ໂຮງງານຜະລິດໂດຍແຕ່ລະຮູບແບບ, ເຊັ່ນດຽວກັນກັບຄ່າໃຊ້ຈ່າຍລະຫວ່າງການປິ່ນປົວ 1 ໂຮງງານຜະລິດ:


ພາສາລາວພາສາລາວພາສາລາວພາສາລາວພາສາລາວພາສາລາວພາສາລາວພາສາລາວພາສາລາວ

ການບໍລິການ

Cost

ລາຄາ Per Page (ມາດຕະຖານ)

ພາສາລາວ

ປະເພດ AWS

$10 / 1000 ຫນ້າ (1)

$0.01

Azure AI Document Intelligence

$10 / 1000 pages

$0.01

Google Document AI

$10 / 1000 pages

$0.01

“GPTT”: GPT-4o API, text input with 3rd party OCR

$2.50 / 1M input tokens, $10.00 / 1M output tokens (2)

$0.021

“GPTI”: GPT-4o ພຽງແຕ່

$2.50 / 1M input tokens, $10.00 / 1M output tokens

$0.0087

ຊື່ຫຍໍ້ຂອງ : Gemini 2.0 Pro

$1.25, input prompts ≤ 128k tokens
$2.50, input prompts > 128k tokens
$5.00, output prompts ≤ 128k tokens
$10.00, output prompts > 128k tokens

$0.0045

Deepseek v3 API

$10 / 1000 pages + $0.27 / 1M input tokens, $1.10 / 1M output tokens

ອັດຕະໂນມັດ
ລາຄາຂອງການບໍລິການ per page (ມາດຕະຖານ)AWS $10 / 1000 ຫນ້າ (1) $0.01ພາສາລາວAzure AI Document Intelligence $10 / 1000 ຫນ້າ $0.01ພາສາລາວພາສາລາວປະເພດຂອງ Google Docsພາສາລາວ$10 / 1000 ຫນ້າພາສາລາວ

ອັດຕະໂນມັດ

ພາສາລາວພາສາລາວ“GPTT”: GPT-4o API, ການເຂົ້າລະຫັດລະຫັດລະຫັດລະຫັດ 3rd party OCR $2.50 / 1M input tokens, $10.00 / 1M output tokens (2) $0.021ພາສາລາວພາສາລາວ“GPTI”: GPT-4o ພຽງແຕ່$ 2.50 / 1M ລະຫັດ input, $ 10.00 / 1M ລະຫັດ outputພາສາລາວອັດຕະໂນມັດພາສາລາວພາສາລາວGemini 2.0 Pro $1.25, ລະບົບການເຂົ້າເຖິງ ≤ 128k tokens$2.50, ລະບົບການເຂົ້າເຖິງ > 128k tokens$5.00, ລະບົບການເຂົ້າເຖິງ ≤ 128k tokens$10.00, ລະບົບການເຂົ້າເຖິງ > 128k tokens $0.0045ພາສາລາວDeepseek v3 API $10 / 1000 ຫນ້າ + $0.27 / 1M input tokens, $1.10 / 1M output tokens $0.011ພາສາລາວລາຄາຂອງການບໍລິການ per page (ມາດຕະຖານ)ພາສາລາວ

ການບໍລິການ

ການບໍລິການ

ລາຄາ

ລາຄາ

ພາສາລາວ

ລາຄາ Per Page (ມາດຕະຖານ)

ລາຄາ Per Page (ມາດຕະຖານ)

ພາສາລາວປະເພດ AWSພາສາລາວ$10 / 1000 ຫນ້າ (1)ພາສາລາວ

ອັດຕະໂນມັດ

ພາສາລາວພາສາລາວ

ປະເພດ AWS

AWS

ປະເພດ AWS$10 / 1000 ຫນ້າ (1)

$10 / 1000 ຫນ້າ (1)

ພາສາລາວ

ອັດຕະໂນມັດ

ອັດຕະໂນມັດ

Azure AI Document Intelligence $10 / 1000 ຫນ້າ $0.01ການນໍາໃຊ້ Azure AI Document Intelligence

Azure AI Document Intelligence

Azure AI Document Intelligenceພາສາລາວ

$10 / 1000 ຫນ້າ

$10 / 1000 ຫນ້າ

$0.01

$0.01

ພາສາລາວປະເພດຂອງ Google Docsພາສາລາວ$10 / 1000 ຫນ້າພາສາລາວ

ອັດຕະໂນມັດ

ພາສາລາວພາສາລາວ

ປະເພດຂອງ Google Docs

Google Document AI

ປະເພດຂອງ Google Docsພາສາລາວ

$10 / 1000 ຫນ້າ

$10 / 1000 ຫນ້າ

ພາສາລາວ

ອັດຕະໂນມັດ

ອັດຕະໂນມັດ

“GPTT”: GPT-4o API, ການເຂົ້າລະຫັດລະຫັດລະຫັດລະຫັດ 3rd party OCR $2.50 / 1M input tokens, $10.00 / 1M output tokens (2) $0.021

“GPTT”: GPT-4o API, text input with 3rd party OCR

“GPTT”: GPT-4o API, text input with 3rd party OCR

“GPTT”:$2.50 / 1M ລະຫັດ input, $10.00 / 1M ລະຫັດ output (2)

$2.50 / 1M ລະຫັດ input, $10.00 / 1M ລະຫັດ output (2)

ພາສາລາວ

ອັດຕະໂນມັດ

$0.021

ພາສາລາວ“GPTI”: GPT-4o ພຽງແຕ່$ 2.50 / 1M ລະຫັດ input, $ 10.00 / 1M ລະຫັດ outputພາສາລາວອັດຕະໂນມັດພາສາລາວພາສາລາວ

“GPTI”: GPT-4o ພຽງແຕ່

“GPTI”: GPT-4o only

“GPTI”: GPT-4o ພຽງແຕ່ພາສາລາວ

$ 2.50 / 1M ລະຫັດ input, $ 10.00 / 1M ລະຫັດ output

$2.50 / 1M input tokens, $10.00 / 1M output tokens

$0.0087

ອັດຕະໂນມັດ

ພາສາລາວ

ຊື່ຫຍໍ້ຂອງ : Gemini 2.0 Pro

ພາສາລາວພາສາລາວ

$1.25, input prompts ≤ 128k tokens
$2.50, input prompts > 128k tokens
$5.00, output prompts ≤ 128k tokens
$10.00, output prompts > 128k tokens

ພາສາລາວ

ອັດຕະໂນມັດ

ພາສາລາວພາສາລາວ

ຊື່ຫຍໍ້ຂອງ : Gemini 2.0 Pro

Gemini 2.0 Pro

ຊື່ຫຍໍ້ຂອງ : Gemini 2.0 Proພາສາລາວ

$1.25, ລະບົບການເຂົ້າເຖິງ ≤ 128k tokens$2.50, ລະບົບການເຂົ້າເຖິງ > 128k tokens$5.00, ລະບົບການເຂົ້າເຖິງ ≤ 128k tokens$10.00, ລະບົບການເຂົ້າເຖິງ > 128k tokens

$1.25, input prompts ≤ 128k tokens
$2.50, input prompts > 128k tokens
$5.00, output prompts ≤ 128k tokens
$10.00, prompts output > 128k tokens

ພາສາລາວ

ອັດຕະໂນມັດ

ອັດຕະໂນມັດ

Deepseek v3 API $10 / 1000 ຫນ້າ + $0.27 / 1M input tokens, $1.10 / 1M output tokens $0.011ພາສາລາວ

ດາວນ໌ໂຫລດ Deepseek v3 API

Deepseek v3 API

ດາວນ໌ໂຫລດ Deepseek v3 APIພາສາລາວ

$10 / 1000 ຫນ້າ + $0.27 / 1M tokens input, $1.10 / 1M tokens output

$10 / 1000 pages + $0.27 / 1M input tokens, $1.10 / 1M output tokens

ອັດຕະໂນມັດ

ອັດຕະໂນມັດ


Notes:

(1) — $8 / 1000 pages after one million per month

(2) — $ 10 supplement per 1000 pages for using a text recognition model

ຄວາມຄິດເຫັນທີ່

ລະຫັດ QRMost Efficient: Gemini ແລະ GPT-4o ເປັນຜູ້ຊ່ຽວຊານໃນການປະສິດທິພາບແລະປະສິດທິພາບຂອງການຊັດເຈນໃນໄລຍະບັນຫາທັງຫມົດ.

Worst performer: Google AI ແມ່ນທີ່ເຫມາະສົມທີ່ສຸດຈາກທັງຫມົດຂອງມາດຕະຖານທີ່ທົດສອບໃນຂະນະທີ່ຂ້າງຂວາງກ່ຽວກັບການຊັດເຈນ item, ເຮັດໃຫ້ score ປະສິດທິພາບທົ່ວໄປຕ່ໍາ. Google combines all item fields into one line, making it the worst choice for using it out of the box.

ລະຫັດ QRLeast Reliable: DeepSeek showed frequent mistakes in text and numerical values.

ວິທີການທີ່ດີທີ່ສຸດສໍາລັບສິ່ງໃດ?

✅ Gemini, AWS, or Azure for high-accuracy data extraction.

✅ GPT-4o (text input with third-party OCR) for cost-effective invoice recognition and a great “cost—efficiency” balance.

☑ ເລືອກ Google AI ຖ້າຫາກວ່າທ່ານຕ້ອງການຊອກຫາອຸປະກອນທີ່ມີຄຸນນະພາບສູງ.

L O A D I N G
. . . comments & more!

About Author

Oleg Kokorin HackerNoon profile picture
Oleg Kokorin@olegkokorin
CEO of Businessware Technologies, machine learning engineer

ວາງປ້າຍ

ບົດ​ຄວາມ​ນີ້​ໄດ້​ຖືກ​ນໍາ​ສະ​ເຫນີ​ໃນ...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks