En popüler 7 AI modeli, faturaları ne kadar iyi işleyebileceklerini, herhangi bir düzeltme olmaksızın test ettim.
Öğrenmek için okuyun:
- Şöyle
- Hangi model diğerlerinden en az %20 daha üstün Şöyle
- Google AI Neden Yapısal Verilerle Çalışmıyor Şöyle
- Hangi modellerin düşük çözünürlüklü taramaları en iyi şekilde kullanabildiğini görün
Test edilen modeller
Bu testin amacını karşılamak için, bu kriterleri kullanarak AI modellerini aramaya başladım:
- Şöyle
- Popülerlik: Popüler modeller daha iyi destek ve belgelere sahiptir. Şöyle
- Faturalar İşleme Yetenekleri: Model, API'yi düzeltmeden veya eğitmeden faturaları get-go'dan işleyebilmelidir. Şöyle
- entegrasyon: Bu testin sonuçları pratikte kullanılmak üzere olduğu için, her modelin kolay entegrasyon için API entegrasyon yeteneğine sahip olması önemlidir. Şöyle
I’ve landed on 7 AI models outlined below. I’ve given each one a nickname for convenience:
- Amazon Analyze Expense API veya “AWS” Şöyle
- Azure AI Document Intelligence - Fatura Hazır Modeli veya “Azure” Şöyle
- Google Doküman AI - Fatura Parser veya “Google” Şöyle
- GPT-4o API - 3. taraf OCR veya “GPTt” ile metin giriş Şöyle
- GPT-4o API - Görüntü Girişi veya “GPTi” Şöyle
- Gemini 2.0 Pro Experimental veya “Gemini” Şöyle
- Deepseek v3 - text input, or “Deepseek-t” Şöyle
Hesap Bilgileri
Modeller, çeşitli düzenlemeler ve emisyon yılları (2006-2020) olan 20 faturanın bir veritabanında test edilmiştir.
Fatura Yılı
Fatura Yılı
Fatura Sayısı
6 için
2006 - 2010 yılları
6 için
6 için
2011 - 2015 yılları
dört
2016 — 2020
10 için
10
metodolojisi
Her faturayı analiz ederek, tüm faturalar arasında ortak olan ve en önemli verileri içeren 16 anahtar alan listesini belirledim:
Invoice Id, Invoice Date, Net Amount, Tax Amount, Total Amount, Due Date, Purchase Order, Payment Terms, Customer Address, Customer Name, Vendor Address, Vendor Name, Item: Description, Item: Quantity, Item: Unit Price, Item: Amount.
LLM modellerinin (GPT, DeepSeek ve Gemini) bu ortak alan adlarını kullanarak sonuçları iade etmeleri istendi.
Etiket Arşivleri Detection
Her fatura için, modellerin anahtar öğelerin alanlarını ne kadar iyi çıkardığını değerlendirdim:
Description, Quantity, Unit Price, Total Price
Metrik Verimlilik
Ekstraksiyonun doğruluğunu değerlendirmek için ağırlıklı bir verim metrikini (Eff, %) kullandım.
Kesinlikle gerekli alanlar: Fatura kimliği, tarihler vb. gibi doğru eşleşmeler
Katı olmayan temel alanlar: Benzerlik (RLD, %) bir eşiği aştığında kısmi karşılaşmalar izin verilir.
Faturalı öğeler: Tüm öğelerin özellikleri doğru bir şekilde çıkarıldığında doğru olarak değerlendirilir.
Formulas
Toplam Verimlilik (Eff, %): Eff, % = (COUNTIF(strict ess. alanlar, pozitif) + COUNTIF(non-strict ess. alanlar, RLD > RLD eşiğinde pozitif) + COUNTIF(elemanlar, pozitif)) / ((COUNT(tüm alanlar) + COUNT(tüm öğeler)) * 100
Ürün düzeyinde verimlilik (Eff-I, %): Eff-I, % = Pozitif IF (ALL(Not, Unit Price, Amount - positive) VE RLD(Description) > RLD eşiği) * 100
Fatura Tanıma Sonuçları
Data Extraction Efficiency (Excluding Items)
Data Extraction Efficiency (Arşiv dahil)
Note: Google'ın sonuçları, Google'ın öğeleri düzgün bir şekilde çıkaramadığı için buradan kaçırılır.
Top İncelemeler
Azure, öğe açıklamaları ile en iyisi değildir.
Bu faturada, Azure, yalnızca ilk isimleri tanıyan tam öğenin isimlerini tespit edemedi, diğer modeller ise tüm 12 öğenin tam isimlerini başarıyla tespit etti.
Bu sorun, bu faturada Azure'un verimliliğini önemli ölçüde etkiledi ve bu oran diğer modellerle karşılaştırıldığında önemli ölçüde düştü (33,3%).
💡 Azure’s inability to parse multi-word descriptions in structured fields highlights a critical limitation compared to competitors.
Low resolution of invoices practically does not affect the quality of detection.
Faturaların düşük çözünürlük (insan gözü tarafından algılanan) genellikle algılama kalitesini zayıflatmadı. düşük çözünürlük esas olarak küçük tanıma hatalarına neden oldu, örneğin, faturalardan birinde, Deepseek, yanlış bir sayısal değere yol açan bir nokta için bir komayı karıştırdı.
💡 Modern OCR and AI models are robust to resolution issues, though rare formatting errors may occur.
Google öğeleri bulamıyor.
Google, tüm öğe alanlarını tek bir satırya birleştirir, bu da sonuçları diğer modellerle karşılaştırmak imkansız hale getirir.
Gerçek Fatura :
All other services have 100% correct detection with breakdown by attributes.
💡 Google’s AI is not capable of extracting structured data without fine-tuning.
Multi-line item descriptions did not affect the quality of detection.
💡 Except for Google AI’s case above, multi-line item descriptions did not negatively impact detection quality across all models.
İkizler en iyi “detaylara dikkat” sahiptir.
GPT, Gemini ve DeepSeek gibi LLM'ler, önceden inşa edilmiş fatura tanıma modellerinden daha fazla veri çıkarmak için istenebilir. Tüm LLM'ler arasında, Gemini, fatura öğelerinden ek verileri çıkarma konusunda en iyi doğruluğa sahiptir.
Fatura Örneği :
Gemini Sonuçları:
GPT sonuçları :
DeepSeek results:
💡 Gemini has the highest items extraction accuracy compared to other LLMs: it extracts all fields, not just the standard ones, and has the highest accuracy in preserving text and numerical values.
Comparing Costs
Her model için 1000 faturanın işlenmesinin maliyetini ve bir faturanın işlenmesinin ortalama maliyetini hesapladım:
Service
maliyeti
maliyeti
Sayfa başına maliyet (ortalama)
$10 / 1000 sayfalar (1)
$10 / 1000 sayfalar (1)
0.01 Doları
Azure Dokümantasyon Bilgileri
Azure AI Document Intelligence
Azure Dokümantasyon Bilgileri$10 / 1000 pages
$0.01
Google Dokümanlar AI
10 / 1000 sayfa
$10 / 1000 pages
0.01 Doları
“GPTT”: GPT-4o API, 3. taraf OCR ile metin giriş
“GPTT”: GPT-4o API, text input with 3rd party OCR
“GPTT”:$2.50 / 1M input tokens, $10.00 / 1M output tokens (2)
$2.50 / 1M input tokens, $10.00 / 1M output tokens (2)
0 021 Dolar
$2.50 / 1M giriş tokenleri, $10.00 / 1M çıkış tokenleri
Doları 0087
İkizler 2.0 Pro
$1.25, giriş iletileri ≤ 128k token$2.50, giriş iletileri > 128k token$5.00, çıkış iletileri ≤ 128k token$10.00, çıkış iletileri > 128k token
Doları 0045
$10 / 1000 sayfalar + $0.27 / 1M giriş tokenleri, $1.10 / 1M çıkış tokenleri
$10 / 1000 sayfalar + $0.27 / 1M giriş tokenleri, $1.10 / 1M çıkış tokenleri
Dolar 011
Notes:
(1) — $8 / 1000 sayfalar ayda bir milyon sonra
(2) — Bir metin tanıma modeli kullanmak için 1000 sayfa başına ek $10
Anahtar bulgular
Most Efficient: Gemini and GPT-4o are leading in efficiency and consistency of extraction across all invoices.
️Worst performer: Google AI is the worst out of all of the tested models when it comes to item extraction, making the overall efficiency score low. Google combines all item fields into one line, making it the worst choice for using it out of the box.
Least ReliableDeepSeek, metin ve sayısal değerlerde sıkça yapılan hataları gösterdi.
Hangi model ne için daha iyi?
✅ Gemini, AWS, or Azure for high-accuracy data extraction.
✅ GPT-4o (üçüncü taraf OCR ile metin girişleri) maliyet verimli fatura tanıma ve mükemmel bir maliyet verimliliği dengesi için.
Yüksek hassasiyetle öğeleri çıkarmak istiyorsanız Google AI'dan kaçının.