295 lecturas Nova historia

Os mellores modelos de IA para o procesamento de facturas: comparacións de benchmarks

por Oleg Kokorin6m2025/04/21
Read on Terminal Reader

Demasiado longo; Ler

Testei os 7 modelos máis populares de IA nun conxunto de datos de 20 facturas de diferentes deseños para ver que son os mellores no procesamento de documentos sen axuste ou pretraining.
featured image - Os mellores modelos de IA para o procesamento de facturas: comparacións de benchmarks
Oleg Kokorin HackerNoon profile picture
0-item

Probei os 7 modelos de IA máis populares para ver o ben que procesan as facturas fóra da caixa, sen ningún axuste.


Ler para aprender:


    que
  • Que modelo supera a todos os outros polo menos un 20%
  • que
  • Por que a AI de Google non traballa con datos estruturados
  • que
  • Ver que modelos manexan os escáneres de baixa resolución mellor
  • que

Modelos probados

Para cumprir o obxectivo desta proba, comecei a buscar modelos de IA usando estes criterios:


  • Popularidade: Os modelos populares teñen mellor soporte e documentación.
  • que
  • Capacidade de procesamento de facturas: O modelo debe ser capaz de procesar facturas desde o comezo, sen axustar ou adestrar a API.
  • que
  • Integración: Como os resultados desta proba están destinados a ser usados na práctica, é importante que cada modelo teña capacidades de integración de API para a súa fácil integración.
  • que

Cheguei a 7 modelos de IA descritos a continuación. dei a cada un un un alcume para a súa conveniencia:


    que
  • Amazon Analyze Expense API, ou “AWS”
  • que
  • Azure AI Document Intelligence - Modelo preconstruído de facturación, ou "Azure"
  • que
  • Google Document AI - Factura Parser, ou "Google"
  • que
  • GPT-4o API - entrada de texto con OCR de terceiros, ou "GPTt"
  • que
  • GPT-4o API - entrada de imaxe, ou "GPTi"
  • que
  • Gemini 2.0 Pro Experimental, ou “Gemini”
  • Deepseek v3 - entrada de texto, ou "Deepseek-t"
  • que

Xestión de datos

Os modelos foron probados nun conxunto de datos de 20 facturas de diferentes deseños e anos de emisión (de 2006 a 2020).


queAno de facturación Número de facturas 2006 - 2010 6 2011 - 2015 4 2016 - 2020 10
Ano de facturación Número de facturas 2006 - 2010 6 2011 - 2015 4 2016 - 2020 10queAno da facturaqueNúmero de facturasAno da factura

Ano da factura

Número de facturas

Número de facturas

2006 - 2010 6que

2006 - 2010

2006 - 2010

6 Páxina

6 Páxina

2011 - 2015 42011 - 2015

2011 - 2015

que

4o

4o

2016 - 2020 102016 - 2020

2016 - 2020

que

10

10o


Metodoloxía

Analizando cada factura, determinei unha lista de 16 campos clave que son comúns entre todas as facturas e conteñen os datos máis importantes:


Invoice Id, Invoice Date, Net Amount, Tax Amount, Total Amount, Due Date, Purchase Order, Payment Terms, Customer Address, Customer Name, Vendor Address, Vendor Name, Item: Description, Item: Quantity, Item: Unit Price, Item: Amount.


Fields extracted by the models were mapped to a common naming convention to ensure consistency. LLM models (GPT, DeepSeek, and Gemini) were specifically asked to return the results using these common field names.

Detección de obxectos

Para cada factura, avaliou o ben que os modelos extraeron os campos de elementos clave:


Description, Quantity, Unit Price, Total Price

Metroloxía de eficiencia

Utilicei unha métrica de eficiencia ponderada (Eff, %) para avaliar a precisión da extracción.


Campos esenciais estritos: correspondencias exactas, como ID de factura, datas, etc.


Campos esenciais non estritos: Os encontros parciais son permitidos se a similitude (RLD, %) supera un limiar.


Elementos de factura: Avaliación como correcta só se todos os atributos do elemento son extraídos con precisión.

fórmulas

Eficiencia total (Eff, %): Eff, % = (COUNTIF(campos esenciais, positivos) + COUNTIF(campos esenciais, positivos se RLD > limiar RLD) + COUNTIF(elementos, positivos)) / ((COUNT(todos os campos) + COUNT(todos os elementos)) * 100


Eficiencia de nivel de elemento (Eff-I, %): Eff-I, % = positivo se (ALL(Cantidade, Prezo por unidade, Cantidade - positivo) E RLD (Descrición) > limiar RLD) * 100

Resultados do recoñecemento da factura

Eficiencia de extracción de datos (excluíndo elementos)


Eficiencia de extracción de datos (incluíndo elementos)


NoteOs resultados de Google son omitidos porque Google non puido extraer elementos correctamente.

Top Insights

Azure non é o mellor con descricións de elementos.

Nesta factura, Azure non detectou os nomes de elementos completos, recoñecendo só os primeiros nomes, mentres que outros modelos identificaron con éxito os nomes completos en todos os 12 elementos.


Este problema afectou significativamente á eficiencia de Azure nesta factura, que foi notablemente menor (33,3%) en comparación cos outros modelos.


💡 Azure’s inability to parse multi-word descriptions in structured fields highlights a critical limitation compared to competitors.

A baixa resolución das facturas practicamente non afecta á calidade da detección.

A baixa resolución (como se percibe polo ollo humano) das facturas xeralmente non degradou a calidade de detección. A baixa resolución resulta principalmente en erros de recoñecemento menores, por exemplo, nunha das facturas, Deepseek confundiu un comma por un punto, levando a un valor numérico incorrecto.


💡 Modern OCR and AI models are robust to resolution issues, though rare formatting errors may occur.

Google non é capaz de detectar elementos.

Google combina todos os campos de elementos nunha soa cadea, o que fai imposible comparar os resultados con outros modelos.


Facturación actual:


Todos os outros servizos teñen detección 100% correcta con descomposición por atributos.


💡 Google’s AI is not capable of extracting structured data without fine-tuning.

As descricións de elementos en varias liñas non afectaron á calidade da detección.

💡 Except for Google AI’s case above, multi-line item descriptions did not negatively impact detection quality across all models.

Gemini ten a mellor "atención ao detalle".

LLMs como GPT, Gemini e DeepSeek poden ser solicitados para extraer máis datos que modelos de recoñecemento de factura pre-construídos. Entre todos os LLMs, Gemini ten a mellor precisión cando se trata de extraer datos adicionais dos elementos de factura. GPT moitas veces extraeu campos correctos pero valores de campo incorrectos, e DeepSeek realizou o peor dos 3 modelos coa precisión de extracción de valor de campo máis pobre.


Exemplo da factura:


Resultados de Gemini:

Accurate results


Resultados do GPT:

Same attributes but inaccurate values


Resultados de DeepSeek:

Most of values are incorrect or absent, bad text in text attributes


💡 Gemini has the highest items extraction accuracy compared to other LLMs: it extracts all fields, not just the standard ones, and has the highest accuracy in preserving text and numerical values.

Comparación de custos

I’ve calculated the cost of processing 1000 invoices by each model, as well as the average cost of processing one invoice:


queCusto por páxina (media) AWS $10 / 1000 páxinas (1) $0.01 Azure AI Document Intelligence $10 / 1000 páxinas $0.01 Google Document AI $10 / 1000 páxinas $0.01 "GPTT": GPT-4o API, entrada de texto con 3rd party OCR $2.50 / 1M tokens de entrada, $10.00 / 1M tokens de saída (2) $0.021 "GPTI": GPT-4o só $2.50 / 1M tokens de entrada, $10.00 / 1M tokens de saída $0.0087 Gemini Pro 2.0 $1.25, prompts de entrada ≤ 128k tokens$2.50, prompts de entrada > 128k tokens$5.00, prompts de saída ≤ 128 tokens$10.00, prompts de saída > 128k tokens $0.0045 Deepseek v3 API $10 / 1000 páxinas
Custo por páxina (media) AWS $10 / 1000 páxinas (1) $0.01 Azure AI Document Intelligence $10 / 1000 páxinas $0.01 Google Document AI $10 / 1000 páxinas $0.01 "GPTT": GPT-4o API, entrada de texto con 3rd party OCR $2.50 / 1M tokens de entrada, $10.00 / 1M tokens de saída (2) $0.021 "GPTI": GPT-4o só $2.50 / 1M tokens de entrada, $10.00 / 1M tokens de saída $0.0087 Gemini Pro 2.0 $1.25, prompts de entrada ≤ 128k tokens$2.50, prompts de entrada > 128k tokens$5.00, prompts de saída ≤ 128 tokens$10.00, prompts de saída > 128k tokens $0.0045 Deepseek v3 API $10 / 1000 páxinasCusto por páxina (custo medio)Servizos

Servizos

que

Custo

Custo

Custo por páxina (media)

Custo por páxina (media)

AWS $10 / 1000 páxinas (1) $0.01AWS

AWS

AWS$10 / 1000 páxinas (1)

$10 / 1000 páxinas (1)

0.01 millóns

0.01 millóns

Intelixencia de documentos de Azure AI $10 / 1000 páxinas $0.01Intelixencia de documentos de Azure

Azure AI Document Intelligence

Intelixencia de documentos de Azure$10 / 1000 páxinas

$10 / 1000 páxinas

que

0.01 millóns

0.01 millóns

queGoogle Documentación AI$10 / 1000 páxinasque0.01 millónsqueGoogle Documentación AI

Google Document AI

Google Documentación AI$10 / 1000 páxinas

$10 / 1000 páxinas

0.01 millóns

0.01 millóns

“GPTT”: API GPT-4o, entrada de texto con OCR de terceiros $2.50 / tokens de entrada de 1M, tokens de saída de $10.00 / 1M (2) $0.021"GPTT": API GPT-4o, entrada de texto con OCR de terceiros

“GPTT”: GPT-4o API, text input with 3rd party OCR

“ gpts ” :$2.50 / tokens de entrada de 1M, $10.00 / tokens de saída de 1M (2)

$2.50 / tokens de entrada de 1M, $10.00 / tokens de saída de 1M (2)

0 021

0 021

"GPTI": GPT-4o só $ 2.50 / 1M tokens de entrada, $ 10.00 / 1M tokens de saída $ 0.0087“GPTI”: só GPT-4o

“GPTI”: GPT-4o only

“GPTI”: GPT-4o only$2.50 / tokens de entrada de 1M, $10.00 / tokens de saída de 1M

$2.50 / tokens de entrada de 1M, $10.00 / tokens de saída de 1M

0,0087 millóns

0,0087 millóns

Gemini 2.0 Pro $1.25, prompts de entrada ≤ 128k tokens$2.50, prompts de entrada > 128k tokens$5.00, prompts de saída ≤ 128k tokens$10.00, prompts de saída > 128k tokens $0.0045que

Páxina 2.0 Pro

Gemini 2.0 Pro

Páxina 2.0 Proque

$1.25, prompts de entrada ≤ 128k tokens$2.50, prompts de entrada > 128k tokens$5.00, prompts de saída ≤ 128k tokens$10.00, prompts de saída > 128k tokens

$1.25, prompts de entrada ≤ 128k tokens$2.50, prompts de entrada > 128k tokens$5.00, prompts de saída ≤ 128k tokens$10.00, prompts de saída > 128k tokens

0,0045 millóns

0,0045 millóns

queIntrodución a Deepseek v3 APIqueque

$10 / 1000 páxinas + $0.27 / 1M tokens de entrada, $1.10 / 1M tokens de saída

0 011queIntrodución a Deepseek v3 API

Deepseek v3 API

Introdución a Deepseek v3 APIque

$10 / 1000 páxinas + $0.27 / 1M tokens de entrada, $1.10 / 1M tokens de saída

$10 / 1000 páxinas + $0.27 / 1M tokens de entrada, $1.10 / 1M tokens de saída

que

0 011

0 011


Notes:

(1) — $ 8 / 1000 páxinas despois dun millón por mes

(2) — Additional $10 per 1000 pages for using a text recognition model

Principais descubrimentos

Most Efficient: Gemini e GPT-4o son líderes en eficiencia e consistencia da extracción en todas as facturas.

Worst performer: Google AI é o peor de todos os modelos probados cando se trata de extracción de elementos, o que fai que a puntuación global de eficiencia sexa baixa.

Least ReliableDeepSeek mostrou erros frecuentes en valores de texto e numéricos.

Cal é o mellor modelo para que?

✅ Gemini, AWS ou Azure para a extracción de datos de alta precisión.

✅ GPT-4o (entrada de texto con OCR de terceiros) para un recoñecemento de factura económico e un gran equilibrio custo-eficiencia.

❌ Avoid Google AI if you need to extract items with high accuracy.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks