295 Lesungen

Die besten KI-Modelle für die Rechnungsabwicklung: Benchmark-Vergleiche

von Oleg Kokorin6m2025/04/21
Read on Terminal Reader

Zu lang; Lesen

Ich habe 7 der beliebtesten KI-Modelle auf einem Datensatz von 20 Rechnungen verschiedener Layouts getestet, um zu sehen, welche am besten bei der Verarbeitung von Dokumenten ohne Fein-Tuning oder Vortraining sind.
featured image - Die besten KI-Modelle für die Rechnungsabwicklung: Benchmark-Vergleiche
Oleg Kokorin HackerNoon profile picture
0-item

Ich habe die 7 beliebtesten AI-Modelle getestet, um zu sehen, wie gut sie Rechnungen aus der Box verarbeiten, ohne irgendwelche Feinabstimmungen.


Lesen, um zu lernen:


    ist
  • Welches Modell alle anderen um mindestens 20% übertrifft
  • ist
  • Warum Google AI nicht mit strukturierten Daten arbeitet
  • ist
  • Sehen Sie, welche Modelle Low-Resolution-Scans am besten bewältigen
  • ist

getestete Modelle

Um das Ziel dieses Tests zu erreichen, begann ich mit der Suche nach KI-Modellen unter Verwendung dieser Kriterien:


    ist
  • Beliebtheit: Beliebte Modelle haben bessere Unterstützung und Dokumentation.
  • ist
  • Rechnungsverarbeitungsfähigkeit: Das Modell muss in der Lage sein, Rechnungen von Beginn an zu verarbeiten, ohne die API zu finanzieren oder zu trainieren.
  • ist
  • Integration: Da die Ergebnisse dieses Tests in der Praxis verwendet werden sollen, ist es wichtig, dass jedes Modell über API-Integrationskapazitäten verfügt, um die Integration zu erleichtern.
  • ist

Ich habe auf 7 AI-Modellen gelandet, die unten aufgeführt sind. Ich habe jedem einen Spitznamen für Bequemlichkeit gegeben:


    ist
  • Amazon Analyze Expense API oder „AWS“
  • ist
  • Azure AI Document Intelligence – Invoice Prebuilt Model oder „Azure“
  • ist
  • Google Document AI – Invoice Parser oder „Google“
  • ist
  • GPT-4o API - Texteingabe mit OCR von Drittanbietern oder „GPTt“
  • ist
  • GPT-4o API - Bildeingabe oder „GPTi“
  • ist
  • Gemini 2.0 Pro Experimental oder „Gemini“
  • ist
  • Deepseek v3 - text input, or “Deepseek-t
  • ist

Rechnungsdatensatz

Die Modelle wurden auf einem Datensatz von 20 Rechnungen verschiedener Layouts und Ausstellungsjahre (von 2006 bis 2020) getestet.


istRechnungsjahr Anzahl der Rechnungen 2006 — 2010 6 2011 — 2015 4 2016 — 2020 10
Rechnungsjahr Anzahl der Rechnungenist2006 bis 2010 6ist2011 - 2015 4ist2016 bis 2020 10istRechnungsjahr Anzahl der RechnungenRechnungsjahr

Rechnungsjahr

ist

Anzahl der Rechnungen

Anzahl der Rechnungen

2006 bis 2010 62006 bis 2010

2006 bis 2010

ist

6 zu

6 zu

ist2011 - 20154 zuist2011 - 2015

2011 - 2015

4 zu

4 zu

2016 bis 2020 102016 bis 2020

2016 bis 2020

ist

Zehn

Zehn


Methodologie

Durch die Analyse jeder Rechnung habe ich eine Liste von 16 Schlüsselfeldern ermittelt, die bei allen Rechnungen üblich sind und die wichtigsten Daten enthalten:


Invoice Id, Invoice Date, Net Amount, Tax Amount, Total Amount, Due Date, Purchase Order, Payment Terms, Customer Address, Customer Name, Vendor Address, Vendor Name, Item: Description, Item: Quantity, Item: Unit Price, Item: Amount.


Die von den Modellen extrahierten Felder wurden zu einer gemeinsamen Namenskonvention gemappt, um Konsistenz zu gewährleisten. LLM-Modelle (GPT, DeepSeek und Gemini) wurden speziell aufgefordert, die Ergebnisse mithilfe dieser gemeinsamen Feldnamen zurückzugeben.

Detektion von Gegenständen

Für jede Rechnung habe ich ausgewertet, wie gut die Modelle die Schlüsselelementfelder extrahiert haben:


Description, Quantity, Unit Price, Total Price

Effizienzmetriken

Ich habe eine gewogene Effizienzmetrik (Eff, %) verwendet, um die Genauigkeit der Extraktion zu beurteilen.


Strenge wesentliche Felder: Genaue Übereinstimmungen wie Rechnungs-ID, Daten usw.


Nicht strenge wesentliche Felder: Teilmatches sind zulässig, wenn die Ähnlichkeit (RLD, %) eine Schwelle überschreitet.


Rechnungsgegenstände: Nur dann als korrekt bewertet, wenn alle Elementeigenschaften korrekt extrahiert werden.

Formeln

Allgemeine Effizienz (Eff, %): Eff, % = (COUNTIF(strict ess. Felder, positiv) + COUNTIF(non-strict ess. Felder, positiv, wenn RLD > RLD Schwelle) + COUNTIF(Elemente, positiv)) / ((COUNT(alle Felder) + COUNT(alle Elemente)) * 100


Effizienz auf Elementebene (Eff-I, %): Eff-I, % = Positiv IF (ALL (Quantität, Einheitspreis, Betrag - positiv) UND RLD (Beschreibung) > RLD Schwelle) * 100

Rechnung Anerkennung Ergebnisse

Effizienz der Datenextraktion (ausgenommen Elemente)


Effizienz der Datenextraktion (einschließlich der Elemente)


Note: Die Ergebnisse von Google werden hiervon ausgelassen, da Google keine Elemente ordnungsgemäß extrahiert hat.

Top Insights

Azure ist mit Elementbeschreibungen nicht das Beste.

In dieser Rechnung konnte Azure die vollständigen Elementnamen nicht erkennen und erkannte nur die ersten Namen, während andere Modelle die vollständigen Namen in allen 12 Elementen erfolgreich identifizierten.


Dieses Problem hatte einen signifikanten Einfluss auf die Effizienz von Azure bei dieser Rechnung, die im Vergleich zu den anderen Modellen deutlich niedriger war (33,3%).


💡 Azure’s inability to parse multi-word descriptions in structured fields highlights a critical limitation compared to competitors.

Die geringe Auflösung der Rechnungen wirkt sich praktisch nicht auf die Qualität der Erkennung aus.

Die niedrige Auflösung führt hauptsächlich zu geringfügigen Erkennungsfehlern, zum Beispiel verwechselt Deepseek in einer der Rechnungen eine Komma mit einem Punkt, was zu einem falschen numerischen Wert führt.


💡 Modern OCR and AI models are robust to resolution issues, though rare formatting errors may occur.

Google erkennt keine Elemente.

Google kombiniert alle Elementefelder in einer einzigen Zeichenfolge, wodurch es unmöglich ist, die Ergebnisse mit anderen Modellen zu vergleichen.


Aktuelle Rechnung:


Alle anderen Dienste haben 100% korrekte Erkennung mit Abbau nach Attributen.


💡 Google’s AI is not capable of extracting structured data without fine-tuning.

Multi-Line-Artikelbeschreibungen haben die Qualität der Erkennung nicht beeinträchtigt.

💡 Except for Google AI’s case above, multi-line item descriptions did not negatively impact detection quality across all models.

Gemini hat die beste „Aufmerksamkeit fürs Detail“.

LLMs wie GPT, Gemini und DeepSeek können gebeten werden, mehr Daten als vorgefertigte Rechnungserkennungsmodelle zu extrahieren. Unter allen LLMs hat Gemini die beste Genauigkeit, wenn es darum geht, zusätzliche Daten aus Rechnungsartikeln zu extrahieren.


Beispiel für Rechnung:


Ergebnisse von Gemini:

Accurate results


Ergebnisse der GPT:

Same attributes but inaccurate values


DeepSeek Ergebnisse:

Most of values are incorrect or absent, bad text in text attributes


💡 Gemini has the highest items extraction accuracy compared to other LLMs: it extracts all fields, not just the standard ones, and has the highest accuracy in preserving text and numerical values.

Kosten vergleichen

Ich habe die Kosten für die Verarbeitung von 1000 Rechnungen pro Modell sowie die durchschnittlichen Kosten für die Verarbeitung einer Rechnung berechnet:


istKosten pro Seite (durchschnittliche Kosten)istAWS $10 / 1000 Seiten (1) $0.01istAzure AI Document Intelligence $10 / 1000 Seiten $0.01Google Document AI $10 / 1000 Seiten $0.01ististististist„GPTI“: GPT-4o nur $2.50 / 1M Eingangstoken, $10.00 / 1M Ausgangstoken $0.0087istististististDeepseek v3 API $10 / 1000 Seiten + $0.27 / 1M Eingabe Token, $1.10 / 1M Ausgabe Token $0.011ist
„GPTT“: GPT-4o API, Textzugriff mit OCR von Drittanbietern$2.50 / 1M Eingabetoken, $10.00 / 1M Ausgabetoken (2)für 0,21 €
Das Gemini 2.0 Proist

$1.25, Eingabeprompts ≤ 128k Tokens$2.50, Eingabeprompts > 128k Tokens$5.00, Ausgabeprompts ≤ 128k Tokens$10.00, Ausgabeprompts > 128k Tokens

€ 0,0045 €
Kosten pro Seite (durchschnittliche Kosten)istAWS $10 / 1000 Seiten (1) $0.01istAzure AI Document Intelligence $10 / 1000 Seiten $0.01Google Document AI $10 / 1000 Seiten $0.01ist„GPTT“: GPT-4o API, Texteingabe mit OCR von Drittanbietern $2.50 / 1M-Eingabe-Token, $10.00 / 1M-Ausgabe-Token (2) $0.021ist„GPTI“: GPT-4o nur $2.50 / 1M Eingangstoken, $10.00 / 1M Ausgangstoken $0.0087istGemini 2.0 Pro $1.25, Eingabeprompts ≤ 128k Tokens$2.50, Eingabeprompts > 128k Tokens$5.00, Ausgabeprompts ≤ 128k Tokens$10.00, Ausgabeprompts > 128k Tokens $0.0045istDeepseek v3 API $10 / 1000 Seiten + $0.27 / 1M Eingabe Token, $1.10 / 1M Ausgabe Token $0.011istKosten pro Seite (durchschnittliche Kosten)Dienstleistung

Dienstleistung

Kosten

Kosten

ist

Kosten pro Seite (durchschnittlich)

Kosten pro Seite (durchschnittlich)

AWS $10 / 1000 Seiten (1) $0.01AWS

AWS

AWSist

10 € / 1000 Seiten (1)

10 € / 1000 Seiten (1)

ist

für 0,01 €

für 0,01 €

istAzure AI Dokumentenintelligenzist10 € / 1000 Seitenistfür 0,01 €istAzure AI Dokumentenintelligenz

Azure AI Document Intelligence

Azure AI Dokumentenintelligenzist

10 € / 1000 Seiten

10 € / 1000 Seiten

für 0,01 €

für 0,01 €

Google Document AI $10 / 1000 Seiten $0.01Google Dokumenten AI

Google Document AI

Google Dokumenten AI10 € / 1000 Seiten

10 € / 1000 Seiten

ist

für 0,01 €

für 0,01 €

ist„GPTT“: GPT-4o API, Textzugriff mit OCR von Drittanbietern$2.50 / 1M Eingabetoken, $10.00 / 1M Ausgabetoken (2)istfür 0,21 €ist„GPTT“: GPT-4o API, Textzugriff mit OCR von Drittanbietern

“GPTT”: GPT-4o API, text input with 3rd party OCR

Die „GPTT“:$2.50 / 1M Eingabetoken, $10.00 / 1M Ausgabetoken (2)

$2.50 / 1M Eingabetoken, $10.00 / 1M Ausgabetoken (2)

ist

für 0,21 €

für 0,21 €

ist„GPTI“: nur GPT-4oist$2.50 / 1M Eingangs-Token, $10.00 / 1M Ausgabe-Tokenist€ 0,0087ist„GPTI“: nur GPT-4o

“GPTI”: GPT-4o only

„GPTI“: nur GPT-4o$2.50 / 1M Eingangs-Token, $10.00 / 1M Ausgabe-Token

$2.50 / 1M Eingangs-Token, $10.00 / 1M Ausgabe-Token

€ 0,0087

€ 0,0087

Gemini 2.0 Pro $1.25, Eingabeprompts ≤ 128k Tokens$2.50, Eingabeprompts > 128k Tokens$5.00, Ausgabeprompts ≤ 128k Tokens$10.00, Ausgabeprompts > 128k Tokens $0.0045Das Gemini 2.0 Pro

Gemini 2.0 Pro

Das Gemini 2.0 Proist

$1.25, Eingabeprompts ≤ 128k Tokens$2.50, Eingabeprompts > 128k Tokens$5.00, Ausgabeprompts ≤ 128k Tokens$10.00, Ausgabeprompts > 128k Tokens

$1.25, Eingabeprompts ≤ 128k Tokens$2.50, Eingabeprompts > 128k Tokens$5.00, Ausgabeprompts ≤ 128k Tokens$10.00, Ausgabeprompts > 128k Tokens

€ 0,0045 €

€ 0,0045 €

istDie Deepseek v3 APIistist

$10 / 1000 pages + $0.27 / 1M input tokens, $1.10 / 1M output tokens

istvon 011istist

Die Deepseek v3 API

Deepseek v3 API

Die Deepseek v3 APIist

$10 / 1000 Seiten + $0.27 / 1M Eingabetoken, $1.10 / 1M Ausgabetoken

$10 / 1000 Seiten + $0.27 / 1M Eingabetoken, $1.10 / 1M Ausgabetoken

von 011

von 011


Notes:

(1) — $8 / 1000 Seiten nach einer Million pro Monat

(2) — Zusätzliche 10 US-Dollar pro 1000 Seiten für die Verwendung eines Texterkennungsmodells

Schlüsselfunde

Most EfficientGemini und GPT-4o sind führend in der Effizienz und Konsistenz der Extraktion auf allen Rechnungen.

Worst performer: Google AI ist das Schlimmste von allen getesteten Modellen, wenn es um die Extraktion von Artikeln geht, wodurch die Gesamteffizienz-Score niedrig ist.

Least ReliableDeepSeek zeigte häufige Fehler in Text- und Zahlenwerten.

Welches Modell ist am besten für was?

✅ Gemini, AWS oder Azure für hochgenaue Datenerfassung.

✅ GPT-4o (Text-Eingabe mit OCR von Drittanbietern) für kosteneffiziente Rechnungserkennung und ein großartiges „Kosten-Effizienz“-Gleichgewicht.

Vermeiden Sie Google AI, wenn Sie Elemente mit hoher Genauigkeit extrahieren müssen.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks