Inteligencia de documentos evolucionada: construir y evaluar soluciones KIE que escalan

TL;DR

Este artículo demuestra un enfoque de extremo a extremo para construir y evaluar una solución KIE (extracción de información clave) utilizando modelos Amazon Nova a través de Amazon Bedrock.
Cubre tres fases: preparación de datos, desarrollo de la solución y medición de rendimiento, con un estudio de caso basado en el conjunto de datos FATURA.
Se destaca una estrategia de prompts agnóstica al modelo, incluyendo plantillas con Jinja2 y el uso de la API Converse de Bedrock para interacción unificada con modelos.
la evaluación combina precisión con valor comercial, usando F1-score y considerando latencia y costo por documento.

Contexto y antecedentes

La inteligencia de documentos (IDP) se refiere a la extracción, clasificación y procesamiento automatizados de datos de diversos formatos de documentos, tanto estructurados como no estructurados. Dentro del IDP, la extracción de información clave (KIE) habilita a los sistemas para identificar y extraer datos críticos con intervención humana mínima. Las organizaciones de sectores como servicios financieros, atención médica, legal y gestión de la cadena de suministro recurren cada vez más al IDP para reducir la entrada manual de datos y acelerar los procesos comerciales. A medida que el volumen de documentos crece, las soluciones IDP no solo automatizan el procesamiento, sino que permiten flujos de trabajo agentivos, donde sistemas de IA pueden analizar datos extraídos e iniciar acciones con poca intervención humana. La capacidad de procesar con precisión facturas, contratos, expedientes médicos y documentos regulatorios se ha convertido en una necesidad empresarial. Desarrollar soluciones IDP efectivas requiere no solo capacidades sólidas de extracción, sino también marcos de evaluación adaptados a las necesidades de la industria y a los casos de uso específicos. Este artículo muestra un enfoque de extremo a extremo para construir y evaluar una solución KIE utilizando modelos de base disponibles a través de Amazon Bedrock, con tres fases: preparación de datos (entender y preparar los documentos), desarrollo de la solución (implementar la lógica de extracción con modelos adecuados) y evaluación del rendimiento (evaluando precisión, eficiencia y costo). Se utiliza FATURA como un proxy práctico para datos empresariales reales, proporcionando escenarios realistas de procesamiento de documentos y una referencia fiable para medir el rendimiento. Esta guía también aborda cómo seleccionar, implementar y evaluar modelos de base para tareas de procesamiento de documentos, considerando tanto la precisión de extracción como el costo y la velocidad. Este recurso es útil para científicos de datos, desarrolladores y analistas de negocio que buscan comprender las capacidades de los modelos de lenguaje grande (LLMs) para tareas de extracción de documentos y establecer métricas de evaluación significativas. FATURA contiene 10,000 facturas con 50 diseños distintos y 24 campos por documento; se muestrearon 40 documentos de 49 diseños para un total de 1,960 muestras, con anotaciones de ground truth para evaluar la extracción. Las variaciones en ground truth se normalizaron para una evaluación justa. Además, se discuten enfoques de prompting y plantillas para escenarios de extracción y manejo de entradas multimodales. AWS ML Blog

Novedades

El artículo presenta un flujo de trabajo de KIE práctico que aprovecha modelos de base de Bedrock (familia Nova) a través de la API Converse. Principales innovaciones:

Interfaz simplificada con la API Converse que abstrae el formato específico del modelo, facilitando la experimentación y la comparación entre modelos para tareas de extracción de documentos.
Estrategias de prompting independientes del modelo implementadas con plantillas para mantener una única estructura de prompts, con lógica basada en reglas cuando corresponde.
Abordaje de desafíos de datos del mundo real: campos ausentes, múltiples valores, textos estructurados o no estructurados (direcciones) y jerarquías de valor (impuestos dependientes de subtotales).
Soporte para entradas multimodales (texto, imagen o multimodal) mediante una estructura de entrada unificada, permitiendo combinar varias fuentes de información en una sola solicitud.
Normalización de ground truth y preparación de datos para una evaluación justa, alineando la salida de LLM con las expectativas de los campos.
Uso de templates Jinja2 cargados a través de LangChain PromptTemplate para poblar prompts con datos del documento (OCR y descripciones de campos) y generar el prompt final.
Evaluación robusta con F1-score, considerando variaciones de formato y la importancia relativa de los campos, junto con consideraciones de latencia y costo.

Por qué importa (impacto para desarrolladores y empresas)

Para desarrolladores y científicos de datos, el artículo clarifica cómo experimentar con modelos de base para procesamiento de documentos sin depender de reglas específicas por modelo. La API Converse facilita la experimentación y permite comparar la calidad de extracción, velocidad y costo entre modelos. Para las empresas, el enfoque ofrece un marco para evaluar soluciones KIE en función de objetivos comerciales. Al usar un conjunto de datos realista como FATURA y enfatizar métricas que reflejan valor operativo (precisión, recall, F1, latencia y costo por documento), las organizaciones pueden seleccionar modelos y configuraciones que equilibren exactitud y rendimiento, además de costos. El énfasis en manejar campos ausentes y múltiples valores, así como entradas multimodales, refleja escenarios reales donde la calidad de los datos varía entre documentos y diseños. En conjunto, se propone un camino hacia un procesamiento de documentos escalable, preciso y rentable. El artículo se alinea con el uso práctico de Bedrock y modelos LLM en pipelines empresariales para procesos documentales. AWS ML Blog

Detalles técnicos o Implementación

La implementación se apoya en un flujo de trabajo de tres fases y un conjunto de técnicas para soluciones KIE escalables:

Preparación de datos y normalización de ground truth: FATURA comprende 10,000 facturas en 50 diseños con 24 campos por documento; se normalizan prefijos y formatos para alinear con la salida esperada.
Interacción con modelos por medio de Converse API: interfaz unificada para invocar modelos de base y comparar rápidamente enfoques de extracción.
Prompts y plantillas: prompts consistentes se crean con templates (Jinja2) y se rellenan con LangChain PromptTemplate, usando OCR y descripciones de campos para generar prompts finales.
Manejo multimodal: entradas de texto e imágenes se combinan en una única solicitud mediante una estructura de contenido unificada, simplificando la lógica de procesamiento.
Procesamiento de imagen: image_to_bytes convierte la imagen en formato legible para el modelo, con posibles ajustes de tamaño para rendimiento.
Marco de evaluación: se determina TP/FP/FN comparando con ground truth, considerando variaciones de formato y la importancia de cada campo. La evaluación también contempla latencia y costo por documento. | Aspecto del conjunto de datos | Descripción |--- |--- |FATURA | 10.000 facturas, 50 diseños |Variedad de diseños | 50 diseños distintos; 24 campos por documento |Ground truth utilizado | 1.960 muestras (40 documentos de 49 diseños) |Distribución de campos | 18 campos, distribución desigual (250 a 1.800) |Normalización de ground truth | Alineación con salida de modelo para coherencia |
Métrica de evaluación: se usa F1-score para equilibrar precisión y recall, con comparadores de campo específicos para manejar variaciones de formato y valores numéricos. La evaluación también contempla la importancia de ciertos campos para el negocio y la latencia/costo por documento. AWS ML Blog

Conclusiones y puntos clave

Los pipelines KIE basados en modelos de base pueden explorarse mediante Bedrock con una API unificada, acelerando pruebas y comparaciones.
La normalización del ground truth es esencial para evaluaciones justas en escenarios con layouts variados.
Los enfoques de prompting multifuncionales y templates permiten la extracción en diferentes tipos de documentos.
La evaluación debe equilibrar métricas técnicas y consideraciones de negocio como latencia y costo.
FATURA ofrece un proxy realista para facturas empresariales y destaca desafíos como campos ausentes y valores múltiples.

FAQ

¿Qué papel juega FATURA en este estudio?

FATURA ofrece 10,000 facturas en 50 diseños con 24 campos por documento para ilustrar la normalización de ground truth, muestreo y estrategias de evaluación para KIE.
¿Por qué usar la API Converse en Bedrock para KIE?

La API Converse proporciona una interfaz unificada para interactuar con modelos de base, facilitando la experimentación y la comparación de calidad de extracción, velocidad y costo.
¿Cómo se mide la calidad de extracción en este contexto?

La calidad se mide con F1-score, equilibrando precisión y recall; se utilizan comparadores de campo que manejan variaciones de formato.
¿Qué factores prácticos, además de la precisión, influyen en la evaluación?

Latencia y costo por documento se consideran para reflejar restricciones operativas y decisiones de implementación.