295 lecturas Nueva Historia

Los mejores modelos de IA para el procesamiento de facturas: comparaciones de benchmark

por Oleg Kokorin6m2025/04/21
Read on Terminal Reader

Demasiado Largo; Para Leer

He probado los 7 modelos de IA más populares en un conjunto de datos de 20 facturas de diversos diseños para ver cuáles son los mejores en el procesamiento de documentos sin ajuste o pre-entrenamiento.
featured image - Los mejores modelos de IA para el procesamiento de facturas: comparaciones de benchmark
Oleg Kokorin HackerNoon profile picture
0-item

He probado los 7 modelos de IA más populares para ver cuán bien procesan las facturas fuera de la caja, sin ningún ajuste.


Leer para aprender:


    y
  • ¿Qué modelo supera a todos los demás en al menos un 20%?
  • y
  • Por qué Google no trabaja con datos estructurados
  • y
  • Ver cuáles modelos manejan mejor los escáneres de baja resolución
  • y

Modelos probados

Para cumplir con el objetivo de esta prueba, comencé una búsqueda de modelos de IA utilizando estos criterios:


    y
  • Popularidad: Los modelos populares tienen un mejor soporte y documentación.
  • y
  • Capacidad de procesamiento de facturas: El modelo debe ser capaz de procesar las facturas desde el comienzo, sin ajustar o entrenar la API.
  • y
  • Integración: Como los resultados de esta prueba están destinados a ser utilizados en la práctica, es importante que cada modelo tenga capacidades de integración de API para una fácil integración.
  • y

He aterrizado en los 7 modelos de IA que se describen a continuación. he dado a cada uno un apodo por conveniencia:


    y
  • Amazon Analytics Expense API, o “AWS”
  • y
  • Azure AI Document Intelligence – Modelo Preconstruido de Factura, o “Azure”
  • y
  • Google Documents AI – Parser de facturas, o “Google”
  • y
  • GPT-4o API - entrada de texto con OCR de terceros, o “GPTt”
  • y
  • GPT-4o API - entrada de imagen, o “GPTi”
  • y
  • Gemini 2.0 Pro Experimental, o “Gemini”
  • y
  • Deepseek v3 - entrada de texto, o “Deepseek-t”
  • y

Contenido de datos

Los modelos fueron probados en un conjunto de datos de 20 facturas de diversos diseños y años de emisión (de 2006 a 2020).


yAño de facturación Número de facturas 2006 — 2010 6 2011 — 2015 4 2016 — 2020 10
Año de facturación Número de facturas 2006 — 2010 6 2011 — 2015 4 2016 — 2020 10Año Número de facturasAño de la factura

Año de la factura

Número de facturas

Número de facturas

y2006 - 2010y6 dey2006 - 2010

2006 - 2010

y

6 de

6 de

2011 - 2015 42011 - 2015

2011 - 2015

y

4 de

4 de

2016 - 2020 10y

2016 - 2020

2016 - 2020

10o

10o


Metodología

Analizando cada factura, he determinado una lista de 16 campos clave que son comunes entre todas las facturas y contienen los datos más importantes:


Invoice Id, Invoice Date, Net Amount, Tax Amount, Total Amount, Due Date, Purchase Order, Payment Terms, Customer Address, Customer Name, Vendor Address, Vendor Name, Item: Description, Item: Quantity, Item: Unit Price, Item: Amount.


Los campos extraídos por los modelos fueron mapeados a una convención de nombramiento común para asegurar la coherencia. los modelos LLM (GPT, DeepSeek y Gemini) se pidieron específicamente para devolver los resultados usando estos nombres de campo comunes.

Detección de elementos

Para cada factura, he evaluado lo bien que los modelos extrajeron los campos de elementos clave:


Description, Quantity, Unit Price, Total Price

Metrología de la eficiencia

He utilizado una métrica de eficiencia ponderada (Eff, %) para evaluar la precisión de la extracción.


Campos esenciales estrictos: coincidencias exactas, como ID de factura, fechas, etc.


Campos esenciales no estrictos: Se permiten encuentros parciales si la similitud (RLD, %) excede un umbral.


Elementos de factura: Se evalúa como correcto solo si todos los atributos de los elementos se extraen con precisión.

fórmulas

Eficiencia general (Eff, %): Eff, % = (COUNTIF(campos de ess, positivos) + COUNTIF(campos de ess, positivos si RLD > umbral de RLD) + COUNTIF(elementos, positivos)) / ((COUNT(todos los campos) + COUNT(todos los elementos)) * 100


Eficiencia de nivel de elemento (Eff-I, %): Eff-I, % = positivo SI (ALL(Cantidad, Precio de unidad, Cantidad - positivo) Y RLD(Descripción) > umbral de RLD) * 100

Resultados del reconocimiento de facturas

Eficiencia de extracción de datos (excluyendo elementos)


Eficiencia de extracción de datos (incluyendo elementos)


NoteLos resultados de Google se omiten de esto ya que Google no pudo extraer los elementos correctamente.

Top Insights

Azure no es el mejor con las descripciones de elementos.

En esta factura, Azure no pudo detectar los nombres completos, reconociendo sólo los primeros nombres, mientras que otros modelos identificaron con éxito los nombres completos en todos los 12 elementos.


Este problema afectó significativamente la eficiencia de Azure en esta factura, que fue notablemente menor (33,3%) en comparación con los otros modelos.


💡 Azure’s inability to parse multi-word descriptions in structured fields highlights a critical limitation compared to competitors.

La baja resolución de las facturas prácticamente no afecta a la calidad de la detección.

La baja resolución (como lo percibe el ojo humano) de las facturas en general no degradó la calidad de detección. La baja resolución principalmente resulta en errores de reconocimiento menores, por ejemplo, en una de las facturas, Deepseek confundió una coma por un punto, lo que llevó a un valor numérico incorrecto.


💡 Modern OCR and AI models are robust to resolution issues, though rare formatting errors may occur.

Google no puede detectar objetos.

Google combina todos los campos de elementos en una sola cadena, lo que hace imposible comparar los resultados con otros modelos.


La factura actual:


Todos los demás servicios tienen detección 100% correcta con descomposición por atributos.


💡 Google’s AI is not capable of extracting structured data without fine-tuning.

Las descripciones de elementos en varias líneas no afectaron a la calidad de la detección.

💡 Except for Google AI’s case above, multi-line item descriptions did not negatively impact detection quality across all models.

Gemini tiene la mejor “atención al detalle”.

Los LLM como GPT, Gemini y DeepSeek se pueden pedir para extraer más datos que los modelos de reconocimiento de factura pre-construidos. Entre todos los LLM, Gemini tiene la mejor precisión cuando se trata de extraer datos adicionales de los artículos de factura. GPT a menudo extrajo campos correctos pero valores de campo incorrectos, y DeepSeek realizó el peor de los 3 modelos con la precisión de extracción de valor de campo más pobre.


Ejemplo de factura:


Resultados de Gemini:

Accurate results


Resultados del GPT:

Same attributes but inaccurate values


Resultados de DeepSeek:

Most of values are incorrect or absent, bad text in text attributes


💡 Gemini has the highest items extraction accuracy compared to other LLMs: it extracts all fields, not just the standard ones, and has the highest accuracy in preserving text and numerical values.

Comparación de costos

He calculado el coste de procesar 1000 facturas por cada modelo, así como el coste medio de procesar una factura:


yCoste por página (medio) AWS $10 / 1000 páginas (1) $0.01 Azure AI Document Intelligence $10 / 1000 páginas $0.01 Google Document AI $10 / 1000 páginas $0.01 "GPTT": GPT-4o API, entrada de texto con 3rd party OCR $2.50 / 1M tokens de entrada, $10.00 / 1M tokens de salida (2) $0.021 "GPTI": GPT-4o sólo $2.50 / 1M tokens de entrada, $10.00 / 1M tokens de salida $0.0087 Gemini Pro 2.0 $1.25, prompts de entrada ≤ 128k tokens$2.50, prompts de entrada > 128k tokens$5.00, prompts de salida ≤ 128 tokens$10.00, prompts de salida > 128k tokens $0.0045 Deepseek v3 API $10 / 1000 páginas + $0.
Costos por página (costo medio)yAWS $10 / 1000 páginas (1) $0.01yAzure AI Document Intelligence $10 / 1000 páginas $0.01yGoogle Docs AI $10 / 1000 páginas $0.01y“GPTT”: API GPT-4o, entrada de texto con OCR de terceros $2.50 / tokens de entrada de 1M, tokens de salida de $10.00 / 1M (2) $0.021y“GPTI”: GPT-4o sólo $2.50 / 1M tokens de entrada, $10.00 / 1M tokens de salida $0.0087yGemini 2.0 Pro $1.25, prompts de entrada ≤ 128k tokens$2.50, prompts de entrada > 128k tokens$5.00, prompts de salida ≤ 128k tokens$10.00, prompts de salida > 128k tokens $0.0045yDeepseek v3 API $10 / 1000 páginas + $0.27 / 1M tokens de entrada, $1.10 / 1M tokens de salida $0.011yCostos por página (costo medio)y

Servicio

Servicio

costos

costos

y

Coste por página (medio)

Coste por página (medio)

yAWSy$10 / 1000 páginas (1)yDólar 0.01yy

AWS

AWS

AWSy

$10 / 1000 páginas (1)

$10 / 1000 páginas (1)

y

Dólar 0.01

Dólar 0.01

Azure AI Document Intelligence $10 / 1000 páginas $0.01Introducción a la inteligencia de documentos de Azure

Azure AI Document Intelligence

Introducción a la inteligencia de documentos de Azure$10 / 1000 páginas

$10 / 1000 páginas

Dólar 0.01

Dólar 0.01

Google Docs AI $10 / 1000 páginas $0.01Google Documentación AI

Google Document AI

Google Documentación AIy

$10 / 1000 páginas

$10 / 1000 páginas

Dólar 0.01

Dólar 0.01

“GPTT”: API GPT-4o, entrada de texto con OCR de terceros $2.50 / tokens de entrada de 1M, tokens de salida de $10.00 / 1M (2) $0.021y

“GPTT”: API GPT-4o, entrada de texto con OCR de terceros

“GPTT”: GPT-4o API, text input with 3rd party OCR

En el “GPTT”:Token de entrada de $2.50 / 1M, Token de salida de $10.00 / 1M (2)

Token de entrada de $2.50 / 1M, Token de salida de $10.00 / 1M (2)

y

0 021

0 021

y“GPTI”: sólo GPT-4oyToken de entrada de $2.50 / 1M, Token de salida de $10.00 / 1My0,0087 dólaresy“GPTI”: sólo GPT-4o

“GPTI”: GPT-4o only

“GPTI”: sólo GPT-4oy

Token de entrada de $2.50 / 1M, Token de salida de $10.00 / 1M

Token de entrada de $2.50 / 1M, Token de salida de $10.00 / 1M

y

0,0087 dólares

0,0087 dólares

Gemini 2.0 Pro $1.25, prompts de entrada ≤ 128k tokens$2.50, prompts de entrada > 128k tokens$5.00, prompts de salida ≤ 128k tokens$10.00, prompts de salida > 128k tokens $0.0045Inicio Gemini 2.0 Pro

Gemini 2.0 Pro

Inicio Gemini 2.0 Pro$1.25, prompts de entrada ≤ 128k tokens$2.50, prompts de entrada > 128k tokens$5.00, prompts de salida ≤ 128k tokens$10.00, prompts de salida > 128k tokens

$1.25, prompts de entrada ≤ 128k tokens$2.50, prompts de entrada > 128k tokens$5.00, prompts de salida ≤ 128k tokens$10.00, prompts de salida > 128k tokens

Dólar 0045

Dólar 0045

Deepseek v3 API $10 / 1000 páginas + $0.27 / 1M tokens de entrada, $1.10 / 1M tokens de salida $0.011Aplicaciones de Deepseek v3 API

Deepseek v3 API

Aplicaciones de Deepseek v3 APIy

$10 / 1000 páginas + $0.27 / 1M tokens de entrada, $1.10 / 1M tokens de salida

$10 / 1000 páginas + $0.27 / 1M tokens de entrada, $1.10 / 1M tokens de salida

0 011

0 011


Notes:

(1) — $8 / 1000 páginas después de un millón por mes

(2) — 10 dólares adicionales por 1000 páginas por el uso de un modelo de reconocimiento de texto

Los principales hallazgos

Most EfficientGemini y GPT-4o son líderes en eficiencia y consistencia de la extracción en todas las facturas.

☀️Worst performerGoogle AI es el peor de todos los modelos probados cuando se trata de extracción de artículos, haciendo que la puntuación general de eficiencia sea baja.

Least ReliableDeepSeek mostró errores frecuentes en los valores de texto y numéricos.

¿Qué modelo es mejor para qué?

Gemini, AWS o Azure para la extracción de datos de alta precisión.

✅ GPT-4o (entrada de texto con OCR de terceros) para el reconocimiento de facturas rentable y un gran equilibrio "coste-eficiencia".

Evite Google AI si necesita extraer elementos con alta precisión.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks