Benchmark de localización de información de documentos con Amazon Nova
Sources: https://aws.amazon.com/blogs/machine-learning/benchmarking-document-information-localization-with-amazon-nova, aws.amazon.com
TL;DR
- Amazon Nova Pro en Amazon Bedrock ofrece localización de campos de documentos con alta precisión y una implementación simplificada.
- El benchmark FATURA reporta un mAP de 0,8305 y consistencia en 45 de 50 plantillas; la plantilla menos precisa alcanzó 0,665.
- Se probaron dos estrategias de prompting; se adoptó la estrategia de coordenadas escaladas para el benchmark completo, con una arquitectura modular para facilitar la extensión de esquemas de campos.
- A pesar de 170 fallos de procesamiento en 10,000 imágenes, los resultados muestran localización robusta de campos estructurados y tolerancia a variaciones de formato, con potencial para despliegue empresarial.
- El código completo está disponible en el repositorio de GitHub asociado; futuros trabajos podrían ampliar el enfoque a tipos de documentos más complejos y flujos de trabajo basados en agentes.
Contexto y antecedentes
El procesamiento de documentos no se limita a leer texto con OCR; también implica localizar dónde se encuentra cierta información en una página. Las soluciones tradicionales combinaban reconocimiento óptico de caracteres con componentes de visión por computadora especializados, lo que requería grandes volúmenes de datos de entrenamiento y mantenimiento continuo. Los modelos multimodales de lenguaje grande (LLMs) ofrecen un cambio de paradigma al combinar comprensión visual con procesamiento del lenguaje natural. Este estudio muestra cómo Amazon Nova Pro, dentro de Amazon Bedrock, puede lograr localización de campos con alta precisión reduciendo la complejidad de implementación. Históricamente, las organizaciones construían soluciones basadas en reglas o modelos de CV para cada tipo de documento, lo que dificultaba escalar. Los modelos multimodales con capacidades de localización permiten entender tanto el diseño visual como el significado semántico a través de interacciones en lenguaje natural, posibilitando una localización robusta con menor costo técnico y mayor adaptabilidad. Diseñamos una solución de localización sencilla que toma una imagen de documento y un prompt de texto, la procesa a través de FMs en Amazon Bedrock y devuelve las ubicaciones de los campos en coordenadas absolutas o normalizadas. El diseño es modular para facilitar la extensión mediante actualizaciones de configuración de esquemas de campos, sin necesidad de cambios en el código, apto para procesamiento pequeño y despliegues empresariales. Para la evaluación se emplea FATURA, un conjunto de datos público con 10,000 facturas de una página en formato JPEG, distribuidas en 50 plantillas de diseño y 24 campos anotados por documento. Las anotaciones incluyen valores de texto y coordenadas exactas de las cajas delimitadoras en formato JSON, lo que facilita la evaluación de la localización y la extracción de campos.
Qué hay de nuevo
El avance clave es la localización de información mediante modelos multimodales en un entorno empresarial real. La evaluación utiliza métricas estándar de visión por computadora, como IoU con un umbral de 0,5 y una tolerancia de margen del 5% para el posicionamiento de los campos. Se evaluaron dos estrategias de prompting—dimensión de imagen y coordenadas escaladas—para identificar el enfoque más estable ante variaciones de diseño. Un subconjunto representativo de 50 imágenes (5 muestras de 10 plantillas) se utilizó para comparar estrategias e identificar la más confiable. A partir de estos resultados, el benchmarking completo utilizó la estrategia de coordenadas escaladas para los modelos Nova, reflejando su mejor desempeño en las pruebas iniciales. Los resultados provienen de recorrer 10,000 documentos. El rendimiento mostró un mAP de 0,8305 para Amazon Nova Pro y una buena precisión/recall en campos estructurados como números de factura y fechas. Aproximadamente 170 imágenes mostraron fallos de procesamiento, principalmente por rechazos de guardrails o salidas JSON mal formadas, lo que subraya la necesidad de manejo robusto de entradas y post-procesamiento en producción. También se observaron confusiones entre campos similares, como direcciones de comprador vs. vendedor. La solución demostró una notable resiliencia en campos de texto frente a variaciones de formato de moneda y decimales, lo que facilita el procesamiento de documentos de múltiples fuentes o regiones. En 45 de 50 plantillas, el mAP se mantuvo por encima de 0,80, señalando una buena generalización ante variaciones de diseño. El enfoque modular permite extender esquemas de campos por configuración sin tocar código, facilitando el despliegue a escala empresarial. El documento sugiere futuras direcciones para ampliar la solución a tipos de documentos más complejos y relaciones entre campos en flujos de trabajo basados en agentes, junto con la alineación continua con las capacidades de Amazon Bedrock y sus prácticas recomendadas.
Por qué importa (impacto para desarrolladores/empresas)
- Menor carga técnica: Los modelos multimodales con capacidades de localización ofrecen un enfoque único para comprender el contenido y localizar campos, reduciendo la necesidad de arquitecturas CV especializadas.
- Mayor adaptabilidad: El diseño modular permite ajustar esquemas de campos por configuración, acelerando la incorporación de nuevos tipos de documentos sin necesidad de código nuevo.
- Despliegue a escala: La solución se apoya en Amazon Bedrock para alojamiento e inferencia de modelos a gran escala, adaptándose a las necesidades empresariales.
- Precisión y resiliencia: El mAP elevado y el rendimiento estable en campos estructurados apoyan automatización confiable en flujos como procesamiento de facturas y verificación de datos.
- Referencias prácticas: Las métricas FATURA ofrecen cifras concretas para evaluar la localización y guiar decisiones de ingeniería.
Detalles técnicos o Implementación
- Entrada/salida: la solución recibe una imagen de documento y un prompt, procesa por modelos de Bedrock y devuelve ubicaciones de campos en coordenadas absolutas o normalizadas.
- Estrategias de prompting: se evaluaron dos enfoques (dimensión de imagen y coordenadas escaladas); la estrategia de coordenadas escaladas se eligió para el benchmark completo.
- Marco de evaluación: IoU de 0,5 y tolerancia de margen de 5% para el posicionamiento; AP y mAP para medir la precisión en 50 plantillas.
- Conjunto de datos: FATURA incluye 10,000 facturas de una página, 50 plantillas y 24 campos anotados por documento, con valores de texto y cajas en JSON.
- Arquitectura y extensibilidad: diseño modular que admite añadir o actualizar esquemas de campos mediante configuración.
- Limitaciones observadas: 170 fallos de procesamiento, principalmente por guardrails y salidas JSON mal formadas; algunas confusiones entre campos cercanos. Esto señala áreas para mejoras.
- Disponibilidad: código en el repositorio de GitHub y buenas prácticas alineadas con la documentación de Bedrock.
Puntos clave
- Amazon Nova Pro en Bedrock ofrece localización de campos sólida para facturas con diversidad de diseño.
- Arquitectura modular y configurable facilita adaptar la solución a nuevos tipos de documentos sin cambiar código.
- La estrategia de coordenadas escaladas proporcionó resultados estables en 10,000 documentos, con fallos que deben gestionarse en producción.
- Los resultados muestran alta consistencia y resiliencia en campos comunes como números de factura y fechas.
- Es fundamental validar salidas y manejar rechazos de guardrails para minimizar salidas no conformes en entornos productivos.
FAQ
-
¿Qué es Amazon Nova Pro y cómo ayuda en la localización de documentos?
Amazon Nova Pro es un modelo multimodal disponible en Amazon Bedrock que puede localizar e interpretar campos en documentos entendiendo tanto el layout visual como el contenido textual, facilitando la localización precisa de campos.
-
¿Qué conjunto de datos y métricas se usaron y cuáles fueron los resultados clave?
Se utilizó FATURA, con 10,000 facturas, 50 plantillas y 24 campos por documento. IoU = 0,5 y margen = 5%, AP y mAP; mAP = 0,8305 para Nova Pro.
-
¿Qué estrategias de prompting se probaron y cuál se adoptó para el benchmark completo?
Se probaron dos estrategias (dimensión de imagen y coordenadas escaladas); se adoptó la estrategia de coordenadas escaladas para el benchmark completo.
-
¿Qué limitaciones se observaron y cómo pueden los desarrolladores mitigarlas?
Fallos de procesamiento y confusiones entre campos cercanos; mejorar prompts, esquemas de campos y validación de salidas puede ayudar en producción.
Referencias
More news
Llevar agentes de IA de concepto a producción con Amazon Bedrock AgentCore
Análisis detallado de cómo Amazon Bedrock AgentCore facilita la transición de aplicaciones de IA basadas en agentes desde un concepto de prueba hasta sistemas de producción empresariales, conservando memoria, seguridad, observabilidad y gestión escalable de herramientas.
Monitorear la inferencia por lotes de Bedrock de AWS con métricas de CloudWatch
Descubra cómo monitorear y optimizar trabajos de inferencia por lotes de Bedrock con métricas, alarmas y paneles de CloudWatch para mejorar rendimiento, costos y operación.
Solicitando precisión con Stability AI Image Services en Amazon Bedrock
Bedrock incorpora Stability AI Image Services con nueve herramientas para crear y editar imágenes con mayor precisión. Descubre técnicas de prompting para uso empresarial.
Escala la producción visual con Stability AI Image Services en Amazon Bedrock
Stability AI Image Services ya está disponible en Amazon Bedrock, ofreciendo capacidades de edición de imágenes listas para usar a través de la API de Bedrock y ampliando los modelos Stable Diffusion 3.5 y Stable Image Core/Ultra ya presentes.
Usar AWS Deep Learning Containers con Amazon SageMaker AI MLflow gestionado
Vea cómo los AWS Deep Learning Containers (DLCs) se integran con SageMaker AI gestionado por MLflow para equilibrar el control de la infraestructura y una gobernanza de ML sólida. Un flujo de TensorFlow para predicción de edad de abalones ilustra el seguimiento de extremo a extremo y la trazabilidad
Construir Flujos de Trabajo Agenticos con GPT OSS de OpenAI en SageMaker AI y Bedrock AgentCore
Visión general de extremo a extremo para implementar modelos GPT OSS de OpenAI en SageMaker AI y Bedrock AgentCore, impulsando un analizador de acciones multiagente con LangGraph, con cuantización MXFP4 de 4 bits y orquestación serverless.