Skip to content
Évaluation de la localisation des informations de documents avec Amazon Nova Pro sur Bedrock
Source: aws.amazon.com

Évaluation de la localisation des informations de documents avec Amazon Nova Pro sur Bedrock

Sources: https://aws.amazon.com/blogs/machine-learning/benchmarking-document-information-localization-with-amazon-nova, aws.amazon.com

TL;DR

  • Amazon Nova Pro, un modèle de fond disponible sur Amazon Bedrock, permet une localisation des champs des documents avec une grande précision et une mise en œuvre simplifiée.
  • L’évaluation sur le jeu de données FATURA donne un mAP de 0,8305, avec une performance robuste sur 45 des 50 templates et au moins 0,665 sur le template le moins performant.
  • L’approche utilise une solution de localisation modulaire qui renvoie les emplacements des champs en coordonnées absolues ou normalisées, avec deux stratégies d’invite et un déploiement évolutif pour les entreprises.
  • L’étude met en évidence la fiabilité pratique, y compris la gestion des formats de devise et des variations décimales, tout en notant des échecs de traitement principalement dus à des refus de garde-fous ou des problèmes de JSON.

Contexte et arrière-plan

Le traitement des documents a historiquement combiné OCR et vision par ordinateur pour localiser et extraire des champs spécifiques. L’OCR révèle le texte présent, mais identifier où se trouve l’information nécessitait une localisation complexe. Les premiers détecteurs d’objets tels que YOLO ont reformulé la détection pour un rendu en temps réel, tandis que RetinaNet traitait le problème du déséquilibre des classes avec Focal Loss et DETR introduisait des architectures basées sur des transformeurs pour limiter les composants faits à la main. Ces évolutions ont laissé des défis: besoin de grandes quantités de données, architectures complexes et expertise nécessaire pour mettre en place et maintenir des pipelines robustes. L’émergence des modèles de langage multimodaux (LLMs) a apporté un virage de paradigme. Ces modèles combinent compréhension visuelle et traitement du langage naturel, permettant la localisation des informations dans les documents via des interactions en langage naturel, tout en utilisant la vision. Amazon Bedrock accueille des modèles multimodaux avec des capacités de localisation, offrant une voie vers une localisation robuste avec une surcharge technique réduite et une plus grande adaptabilité à de nouveaux types de documents. L’évaluation présentée exploite ces capacités via Amazon Nova Pro sur Bedrock, fusionnant compréhension visuelle et interprétation semantique pour localiser et interpréter les champs des documents. AWS Blog L’étude souligne aussi l’intérêt d’un design modulaire qui accepte une image de document et une invite textuelle, et qui renvoie des emplacements de champs en coordonnées absolues ou normalisées. Cette approche facilite l’extension à des schémas de champs personnalisés via configuration plutôt que par modification du code, alignant l’architecture sur les besoins d’industrialisation. Pour les chercheurs et les praticiens, FATURA offre une évaluation rigoureuse. Il comprend 10 000 factures à page unique, en JPEG, couvrant 50 gabarits avec 200 documents par gabarit, et chaque document est annoté avec 24 champs clés, incluant numéros de facture, dates, lignes et montants totaux. Les annotations incluent les valeurs textuelles et les coordonnées de boîtes englobantes au format JSON, facilitant une évaluation précise de la localisation.

Nouvelles fonctionnalités

L’article démontre comment utiliser des modèles de fond sur Amazon Bedrock—plus précisément Amazon Nova Pro—pour atteindre une localisation de champs de document avec une grande précision, tout en réduisant l’effort côté frontend. La méthodologie montre comment ces modèles multimodaux peuvent localiser et interpréter les champs avec précision, réduisant le besoin de pipelines de vision par ordinateur sur mesure. L’évaluation s’appuie sur FATURA pour évaluer les performances et proposer des directives de mise en œuvre pratiques. Lors du développement, deux stratégies d’invitation ont été testées: dimensions de l’image et coordonnées scalées. Un sous-ensemble représentatif initial de 50 images (5 échantillons de 10 gabarits) a été utilisé pour comparer trois approches et orienter le choix stratégique. L’évaluation complète a été étendue au jeu FATURA (10 000 documents). Pour les modèles Nova, l’approche à coordonnées scalées a été choisie en raison de ses caractéristiques de performance optimales observées lors des tests initiaux. Les métriques incluent IoU et AP, avec un seuil IoU de 0,5 et une tolérance de marge de 5% pour le positionnement. AWS Blog Les résultats montrent que Amazon Nova Pro obtient un mAP de 0,8305, avec une performance stable à travers divers layouts. Le modèle a maintenu un mAP supérieur à 0,80 pour 45 des 50 gabarits, le plus bas étant 0,665. Bien qu’il y ait eu 170 échecs de traitement sur 10 000 images, la plupart provenaient de refus de garde-fous ou de sorties JSON malformées, avec quelques confusions entre des champs tels que les adresses d’acheteur et de vendeur. Ces résultats illustrent la forte capacité de localisation de Nova Pro même face à des variations réelles de documents. AWS Blog L’évaluation indique aussi que Nova Pro excelle dans la localisation de champs structurés (numéros de facture et dates) et montre une robustesse notable pour les champs textuels, y compris les formats monétaires variés. Cela renforce son adéquation au traitement de documents provenant de sources ou régions multiples. AWS Blog

Pourquoi c’est important (impact pour les développeurs/entreprises)

La localisation des informations dans les documents représente une avancée significative par rapport à l’extraction de texte traditionnelle. L’OCR fournit le contenu textuel, tandis que la localisation indique où se trouvent ces informations, ouvrant la voie à des contrôles automatiques de qualité, à la redaction de données sensibles, à la comparaison intelligente et à des flux de validation. Les modèles multimodaux avec localisation disponibles sur Bedrock transforment le paradigme en combinant compréhension de la disposition visuelle et interprétation semantique, réduisant le besoin d’architectures de vision spécialisées et de grands jeux de données pour l’entraînement. Pour les entreprises, cela se traduit par une meilleure adaptabilité à de nouveaux types de documents et une réduction de la charge technique lors du déploiement de pipelines de traitement de documents à grande échelle. AWS Blog

Détails techniques ou Mise en œuvre

L’étude se concentre sur une solution de localisation simple et modulaire qui prend une image de document et une invite de texte, les traite avec des modèles de base sélectionnés sur Amazon Bedrock, et renvoie les emplacements des champs en coordonnées absolues ou normalisées. L’approche offre deux stratégies d’invite distinctes—dimensions de l’image et coordonnées scalées—et est conçue pour faciliter l’extension à des schémas de champs personnalisés par configuration, sans nécessiter de modification du code. Cette conception favorise l’évolutivité, depuis des projets pilotes jusqu’à des déploiements à l’échelle de l’entreprise. Données et métriques clés:

ÉlémentDescription
Jeu de donnéesFATURA: 10 000 factures à page unique, JPEG, 50 modèles, 200 documents par modèle
Champs24 champs-clés par document (par ex. numéros de facture, dates, lignes, totaux)
AnnotationsValeurs textuelles et coordonnées de boîtes englobantes en JSON
MétriquesIoU (seuil 0,5); AP; mAP globale
Modes de coordonnéesAbsolues et normalisées
Stratégies d’inviteDimensions de l’image; Coordonnées scalées
ModèleAmazon Nova Pro sur Bedrock
Résultat principalmAP 0,8305; 45/50 modèles au-dessus de 0,80; plus bas 0,665; 170 échecs de traitement (principalement guardrails ou JSON malformé)
Le FATURA, avec ses variations de gabarit et son schéma d’annotation, permet de tester la précision de localisation à travers différentes configurations et formats régionaux. L’évaluation insiste autant sur la précision par champ que sur la robustesse de la sortie, y compris la gestion des éventuels problèmes de sortie JSON qui peuvent entraîner des échecs de traitement. Les résultats démontrent que le Nova Pro peut localiser et interpréter fortement les champs structurés, y compris les champs textuels, tout en conservant une précision dans des formats monétaires variés. AWS Blog
Notes d’implémentation:
  • La solution est conçue de manière modulaire pour faciliter l’extension à des schémas de champs personnalisés via configuration plutôt que modification du code.
  • Le choix de l’approche des coordonnées scalées pour les modèles Nova découle des observations de performance lors des tests initiaux et de l’évaluation complète.
  • L’évaluation emploie des métriques standard de localisation (IoU et AP), fournissant un cadre familier pour comparer les modèles multimodaux et les approches de vision traditionnelles. ##Points clés
  • Les modèles de base multimodaux sur Bedrock permettent de localiser les champs de documents avec une grande précision, tout en réduisant la complexité de mise en œuvre.
  • Nova Pro a atteint un mAP de 0,8305 sur FATURA, avec une performance stable sur divers Layouts.
  • Les sorties de localisation peuvent être exprimées en coordonnées absolues ou normalisées selon la stratégie d’invite choisie.
  • Le design modulaire facilite l’extension à des schémas de champs personnalisés, permettant une déploiement flexible pour différents types de documents.
  • Les échecs de traitement observés sont principalement liés à des refus de garde-fous et à des sorties JSON mal formées, suggérant des axes d’amélioration.

FAQ

  • Qu’est-ce que la localisation d’informations de documents?

    C’est l’identification de la position spatiale précise des informations dans les documents, au-delà de l’extraction textuelle.

  • uel ensemble de données a été utilisé pour le benchmark?

    FATURA, comprenant 10 000 factures à page unique, 50 modèles, 24 champs et des annotations JSON avec valeurs textuelles et boîtes englobantes.

  • uelle performance pour Nova Pro?

    mAP de 0,8305, avec 45 des 50 modèles au-dessus de 0,80; le plus bas est 0,665; IoU 0,5 et tolérance de marge de 5 %.

  • Comment les coordonnées sont-elles renvoyées?

    En coordonnées absolues ou normalisées, selon la stratégie d’invite utilisée.

References

More news

aws.amazon.com

Utiliser les AWS Deep Learning Containers avec SageMaker AI géré MLflow

Découvrez comment les AWS Deep Learning Containers (DLCs) s’intègrent à SageMaker AI géré par MLflow pour équilibrer le contrôle de l’infrastructure et une gouvernance ML robuste. Un flux TensorFlow pour la prédiction de l’âge des abalones illustre le suivi de bout en bout et la traçabilité des modè