ຂ້າພະເຈົ້າໄດ້ທົດສອບ 7 ໂມເລກຸນ AI ທີ່ດີທີ່ສຸດເພື່ອເບິ່ງວ່າພວກເຂົາເຈົ້າມີຄຸນນະສົມບັດທີ່ດີທີ່ສຸດໃນການປິ່ນປົວບັນຊີລາຍລະອຽດໂດຍບໍ່ມີການປິ່ນປົວ.
ດາວນ໌ໂຫລດ
- ພາສາລາວ
- ໂມເລກຸນທີ່ຕອບສະຫນອງທັງຫມົດຂອງອື່ນໆໃນໄລຍະ 20% ພາສາລາວ
- ເປັນຫຍັງ Google AI ບໍ່ເຮັດວຽກກັບຂໍ້ມູນ structured ພາສາລາວ
- ດາວນ໌ໂຫລດ The Best Low-Resolution Scans ພາສາລາວ
ຮູບແບບການທົດສອບ
ເພື່ອສະຫນັບສະຫນູນຄວາມຕ້ອງການຂອງການທົດສອບນີ້, ຂ້າພະເຈົ້າໄດ້ເລີ່ມຕົ້ນການຊອກຫາຮູບແບບ AI ໂດຍໃຊ້ມາດຕະຖານນີ້:
- ພາສາລາວ
- Popularity: ຮູບແບບທີ່ດີທີ່ສຸດມີສະຫນັບສະຫນູນແລະເອກະສານທີ່ດີກວ່າ. ພາສາລາວ
- ຄວາມສາມາດໃນການປິ່ນປົວບັນຊີລາຍການ: ໂມເລກຸນຄວນຈະສາມາດປິ່ນປົວບັນຊີລາຍການຈາກ get-go, ໂດຍບໍ່ມີການປັບປຸງຫຼືການຝຶກອົບຮົມ API. ພາສາລາວ
- ການເຊື່ອມຕໍ່: ເນື່ອງຈາກວ່າຜົນປະໂຫຍດຂອງການທົດສອບນີ້ແມ່ນຖືກນໍາໃຊ້ໃນທົດສອບ, ມັນເປັນສິ່ງທີ່ສໍາຄັນສໍາລັບແຕ່ລະຮູບແບບທີ່ຈະມີຄວາມສາມາດຂອງການເຊື່ອມຕໍ່ API ສໍາລັບການເຊື່ອມຕໍ່ງ່າຍ. ພາສາລາວ
ຂ້າພະເຈົ້າໄດ້ຈຸດປະສົງໃນ 7 ໂມເລກຸນ AI ທີ່ຖືກຂຽນຂ້າງລຸ່ມນີ້. ຂໍຂອບໃຈວ່າພວກເຮົາມີແຕ່ລະຄົນມີຊື່ສຽງສໍາລັບຄວາມງ່າຍດາຍ:
- Amazon Analyze Expense API, or “AWS” ພາສາລາວ
- Azure AI Document Intelligence - ໂຮງງານຜະລິດ Prebuilt Model, ຫຼື "Azure" ພາສາລາວ
- Google Docs AI - Invoice Parser, ຫຼື "Google"
- API GPT-4o - ການເຂົ້າລະຫັດລະຫັດທີ່ມີ OCR ຂອງ 3rd party, ຫຼື "GPTt" ພາສາລາວ
- GPT-4o API - ການເຂົ້າລະຫັດຮູບພາບ, ຫຼື "GPTi" ພາສາລາວ
- Gemini 2.0 Pro Experimental, or “Gemini” ພາສາລາວ
- Deepseek v3 - ການເຂົ້າລະຫັດເອກະສານ, ຫຼື "Deepseek-t" ພາສາລາວ
Invoice Dataset
The models were tested on a dataset of 20 invoices of various layouts and years of issue (from 2006 to 2020).
ພາສາລາວ | ພາສາລາວ |
ສິງຫາ 2016 | ພາສາລາວ |
ພາສາລາວ
ລະຫັດ QR
ລະຫັດ QR
ພາສາລາວ
ພາສາລາວ
ພາສາລາວ
ພາສາລາວ
ພາສາລາວ
ພາສາລາວ
ພາສາລາວ
ສິງຫາ 2016
ພາສາລາວ
ວິທີການ
ການທົດສອບບັນຊີລາຍລະອຽດທັງຫມົດ, ຂ້າພະເຈົ້າໄດ້ຄົ້ນຄວ້າບັນຊີລາຍລະອຽດຂອງ 16 ພື້ນທີ່ສໍາຄັນທີ່ເປັນປົກກະຕິໃນທັງຫມົດບັນຊີລາຍລະອຽດແລະປະກອບມີຂໍ້ມູນທີ່ສໍາຄັນທີ່ສຸດ:
Invoice Id, Invoice Date, Net Amount, Tax Amount, Total Amount, Due Date, Purchase Order, Payment Terms, Customer Address, Customer Name, Vendor Address, Vendor Name, Item: Description, Item: Quantity, Item: Unit Price, Item: Amount.
ພື້ນທີ່ໄດ້ຮັບການຊອກຫາໂດຍຮູບແບບໄດ້ຖືກກວດສອບກັບມາດຕະຖານຄ້າຍຄືກັນເພື່ອຮັບປະກັນຜົນປະໂຫຍດ. ຮູບແບບ LLM (GPT, DeepSeek, ແລະ Gemini) ໄດ້ຮັບປະໂຫຍດຢ່າງກວ້າງຂວາງເພື່ອໃຫ້ເຫັນຜົນປະໂຫຍດໂດຍໃຊ້ຊື່ພື້ນທີ່ທົ່ວໄປນີ້.
ຊື່ຫຍໍ້ຂອງ : Detection Items
ສໍາລັບແຕ່ລະອຽດອະນຸຍາດ, ຂ້າພະເຈົ້າໄດ້ຄາດຄະເນດິນດີຕ້ອນຮັບວ່າຮູບແບບໄດ້ຊັດເຈນ fields ທີ່ສໍາຄັນ:
Description, Quantity, Unit Price, Total Price
ປະສິດທິພາບ Metrics
ຂ້າພະເຈົ້າໄດ້ນໍາໃຊ້ metric ປະສິດທິພາບ weighted (Eff, %) ເພື່ອກວດສອບຄວາມຖືກຕ້ອງຂອງ extrusion. metric ນີ້ປະກອບດ້ວຍ:
ສະຫນັບສະຫນູນທີ່ສໍາຄັນ: ສະຫນັບສະຫນູນທີ່ແທ້ຈິງ, ເຊັ່ນ ID ໂທລະສັບ, ວັນທີ, ແລະອື່ນໆ
ພື້ນທີ່ທີ່ສໍາຄັນທີ່ບໍ່ແມ່ນຄຸນນະສົມບັດ: ຄຸນນະສົມບັດ partial ສາມາດໄດ້ຮັບການອະນຸຍາດຫຼັງຈາກນັ້ນທີ່ຄຸນນະສົມບັດ (RLD, %) ຫຼາຍກ່ວາແຜ່ນ.
ຜະລິດຕະພັນອຸປະກອນ: ການຄາດຄະເນດຽວກັນໂດຍບໍ່ມີການຄາດຄະເນດຽວກັນໂດຍບໍ່ມີການຄາດຄະເນດຽວກັນໂດຍບໍ່ມີການຄາດຄະເນດິນ.
ລະຫັດ QR
ປະສິດທິພາບທັງຫມົດ (Eff, %): ປະສິດທິພາບ, % = (COUNTIF( fields strict ess, positive) + COUNTIF( fields non-strict ess, positive if RLD > threshold RLD) + COUNTIF(object, positive)) / ((COUNT(all fields) + COUNT(all items)) * 100
Item-Level Efficiency (Eff-I, %): Eff-I, % = Positive IF (ALL(Quantity, Unit Price, Amount - positive) AND RLD(Description) > RLD threshold) * 100
ການຢັ້ງຢືນບັນຊີລາຍຊື່
ປະສິດທິພາບການຊໍາລະເງິນຂໍ້ມູນ (ລວມທັງ item)
ປະສິດທິພາບການຊອກຫາຂໍ້ມູນ (including items)
Note: Google’s results are omitted from this as Google failed to extract items properly.
ປະເພດ Top Insights
Azure ບໍ່ແມ່ນທີ່ດີທີ່ສຸດກັບຄໍາແນະນໍາ item.
ໃນລາຍລະອຽດນີ້, Azure ໄດ້ບໍ່ສາມາດຊອກຫາຊື່ສ່ວນໃຫຍ່ໂດຍບໍ່ຮູ້ສຶກພຽງແຕ່ຊື່ຕົ້ນ, ໃນຂະນະທີ່ມາດຕະຖານອື່ນໆໄດ້ຊອກຫາຊື່ສ່ວນໃຫຍ່ໃນທຸກ 12 ຂໍ້ມູນ.
ການບັນທຶກນີ້ໄດ້ບັນລຸຜົນປະໂຫຍດເພີ່ມເຕີມກ່ຽວກັບປະສິດທິພາບຂອງ Azure ໃນລາຍລະອຽດນີ້, ເຊິ່ງແມ່ນຕ່ໍາກວ່າ (33.3%) compared ກັບຮູບແບບອື່ນໆ.
💡 Azure’s inability to parse multi-word descriptions in structured fields highlights a critical limitation compared to competitors.
ຄວາມຖືກຕ້ອງຕ່ໍາຂອງບັນຊີລາຍໄດ້ຢ່າງງ່າຍດາຍບໍ່ມີຜົນປະໂຫຍດກ່ຽວກັບຄຸນນະພາບຂອງການຊອກຫາ.
Low resolution (as perceived by the human eye) of invoices generally did not degrade detection quality. The low resolution mainly results in minor recognition mistakes, for example, in one of the invoices, Deepseek mistook a comma for a dot, leading to an incorrect numerical value.
💡 Modern OCR and AI models are robust to resolution issues, though rare formatting errors may occur.
Google ບໍ່ສາມາດຊອກຫາອຸປະກອນ
Google combines all item fields into a single string, which makes it impossible to compare the results to other models.
ລະຫັດ QR
ການບໍລິການອື່ນໆທັງຫມົດມີການຄົ້ນຄວ້າທີ່ຖືກຕ້ອງ 100% ມີການປິ່ນປົວໂດຍຄຸນນະພາບ.
💡 Google’s AI is not capable of extracting structured data without fine-tuning.
ຮູບພາບ ສໍາ ລັບ Multi-Line Object Descriptions ທີ່ບໍ່ມີຜົນກະທົບໃນຄຸນນະພາບຂອງການຊອກຫາ.
💡 Except for Google AI’s case above, multi-line item descriptions did not negatively impact detection quality across all models.
Gemini ມີທີ່ດີທີ່ສຸດ "ຄວາມຮູ້ສຶກກັບລາຍລະອຽດ".
LLMs ເຊັ່ນ GPT, Gemini, ແລະ DeepSeek ສາມາດໄດ້ຮັບການຝຶກອົບຮົມທີ່ຈະຊອກຫາຂໍ້ມູນເພີ່ມເຕີມກ່ວາມາດຕະຖານການຢັ້ງຢືນທີ່ຖືກສ້າງຕັ້ງຂຶ້ນ. ໃນລະຫວ່າງ LLMs ທັງຫມົດ, Gemini ມີຄວາມແມ່ນຍໍາທີ່ດີທີ່ສຸດໃນຂະນະທີ່ຂ້າພະເຈົ້າຊອກຫາຂໍ້ມູນເພີ່ມເຕີມຈາກເອກະສານຢັ້ງຢືນ.
ຮູບພາບ ສໍາ ລັບ Example:
ຄວາມຄິດເຫັນທີ່ Gemini:
ຜົນປະໂຫຍດ GPT:
ດາວນ໌ໂຫລດ DeepSeek
💡 Gemini has the highest items extraction accuracy compared to other LLMs: it extracts all fields, not just the standard ones, and has the highest accuracy in preserving text and numerical values.
ຄ່າໃຊ້ຈ່າຍ Comparison
ຂ້າພະເຈົ້າກໍານົດຄ່າໃຊ້ຈ່າຍຂອງການປິ່ນປົວ 1000 ໂຮງງານຜະລິດໂດຍແຕ່ລະຮູບແບບ, ເຊັ່ນດຽວກັນກັບຄ່າໃຊ້ຈ່າຍລະຫວ່າງການປິ່ນປົວ 1 ໂຮງງານຜະລິດ:
ການບໍລິການ | ພາສາລາວ
Cost |
ລາຄາ Per Page (ມາດຕະຖານ) | ພາສາລາວ
---|---|---|
ພາສາລາວ ປະເພດ AWS | ພາສາລາວ
$10 / 1000 ຫນ້າ (1) | ພາສາລາວ
$0.01 |
$10 / 1000 pages |
$0.01 | ພາສາລາວ|
$10 / 1000 pages |
$0.01 | |
“GPTT”: GPT-4o API, text input with 3rd party OCR | ພາສາລາວ
$2.50 / 1M input tokens, $10.00 / 1M output tokens (2) |
$0.021 |
$2.50 / 1M input tokens, $10.00 / 1M output tokens |
$0.0087 | |
ຊື່ຫຍໍ້ຂອງ : Gemini 2.0 Pro |
$1.25, input prompts ≤ 128k tokens |
$0.0045 |
$10 / 1000 pages + $0.27 / 1M input tokens, $1.10 / 1M output tokens | ອັດຕະໂນມັດ |
ອັດຕະໂນມັດ
ການບໍລິການ
ການບໍລິການ
ລາຄາ
ລາຄາ
ລາຄາ Per Page (ມາດຕະຖານ)
ລາຄາ Per Page (ມາດຕະຖານ)
ອັດຕະໂນມັດ
ປະເພດ AWS
$10 / 1000 ຫນ້າ (1)
ອັດຕະໂນມັດ
ອັດຕະໂນມັດ
Azure AI Document Intelligence
Azure AI Document Intelligence$10 / 1000 ຫນ້າ
$10 / 1000 ຫນ້າ
$0.01
$0.01
ອັດຕະໂນມັດ
ປະເພດຂອງ Google Docs
$10 / 1000 ຫນ້າ
$10 / 1000 ຫນ້າ
ອັດຕະໂນມັດ
ອັດຕະໂນມັດ
“GPTT”: GPT-4o API, text input with 3rd party OCR
“GPTT”: GPT-4o API, text input with 3rd party OCR
“GPTT”:$2.50 / 1M ລະຫັດ input, $10.00 / 1M ລະຫັດ output (2)
ອັດຕະໂນມັດ
$0.021
“GPTI”: GPT-4o ພຽງແຕ່
$ 2.50 / 1M ລະຫັດ input, $ 10.00 / 1M ລະຫັດ output
$2.50 / 1M input tokens, $10.00 / 1M output tokens
$0.0087
ອັດຕະໂນມັດ
ຊື່ຫຍໍ້ຂອງ : Gemini 2.0 Pro
$1.25, input prompts ≤ 128k tokens
$2.50, input prompts > 128k tokens
$5.00, output prompts ≤ 128k tokens
$10.00, output prompts > 128k tokens
ອັດຕະໂນມັດ
ຊື່ຫຍໍ້ຂອງ : Gemini 2.0 Pro
$1.25, ລະບົບການເຂົ້າເຖິງ ≤ 128k tokens$2.50, ລະບົບການເຂົ້າເຖິງ > 128k tokens$5.00, ລະບົບການເຂົ້າເຖິງ ≤ 128k tokens$10.00, ລະບົບການເຂົ້າເຖິງ > 128k tokens
$1.25, input prompts ≤ 128k tokens
$2.50, input prompts > 128k tokens
$5.00, output prompts ≤ 128k tokens
$10.00, prompts output > 128k tokens
ອັດຕະໂນມັດ
ອັດຕະໂນມັດ
$10 / 1000 ຫນ້າ + $0.27 / 1M tokens input, $1.10 / 1M tokens output
$10 / 1000 pages + $0.27 / 1M input tokens, $1.10 / 1M output tokens
ອັດຕະໂນມັດ
Notes:
(1) — $8 / 1000 pages after one million per month
(2) — $ 10 supplement per 1000 pages for using a text recognition model
ຄວາມຄິດເຫັນທີ່
ລະຫັດ QRMost Efficient: Gemini ແລະ GPT-4o ເປັນຜູ້ຊ່ຽວຊານໃນການປະສິດທິພາບແລະປະສິດທິພາບຂອງການຊັດເຈນໃນໄລຍະບັນຫາທັງຫມົດ.
️Worst performer: Google AI ແມ່ນທີ່ເຫມາະສົມທີ່ສຸດຈາກທັງຫມົດຂອງມາດຕະຖານທີ່ທົດສອບໃນຂະນະທີ່ຂ້າງຂວາງກ່ຽວກັບການຊັດເຈນ item, ເຮັດໃຫ້ score ປະສິດທິພາບທົ່ວໄປຕ່ໍາ. Google combines all item fields into one line, making it the worst choice for using it out of the box.
ລະຫັດ QRLeast Reliable: DeepSeek showed frequent mistakes in text and numerical values.
ວິທີການທີ່ດີທີ່ສຸດສໍາລັບສິ່ງໃດ?
✅ Gemini, AWS, or Azure for high-accuracy data extraction.
✅ GPT-4o (text input with third-party OCR) for cost-effective invoice recognition and a great “cost—efficiency” balance.
☑ ເລືອກ Google AI ຖ້າຫາກວ່າທ່ານຕ້ອງການຊອກຫາອຸປະກອນທີ່ມີຄຸນນະພາບສູງ.