L’intelligence documentaire évoluée : construire et évaluer des solutions KIE à grande échelle

TL;DR

Cet article présente une approche de bout en bout pour construire et évaluer une solution KIE (extraction d’informations clés) en utilisant les modèles Amazon Nova via Amazon Bedrock.
Il couvre trois phases: préparation des données, développement de la solution et mesure de la performance, avec une étude de cas basée sur l’ensemble de données FATURA.
On met en avant une stratégie de prompting indépendante du modèle, avec templating Jinja2 et l’API Converse de Bedrock pour une interaction unifiée avec les modèles.
L’évaluation privilégie l’équilibre entre précision et valeur métier, en utilisant le F1-score et en tenant compte de la latence et du coût par document.

Contexte et antécédents

Le traitement intelligent des documents (IDP) désigne l’extraction, la classification et le traitement automatisés de données à partir de formats documentaires variés, structurés ou non structurés. Dans le domaine de l’IDP, l’extraction d’informations clés (KIE) permet d’identifier et d’extraire des données critiques avec une intervention humaine minimale. Les organisations de secteurs tels que les services financiers, la santé, le juridique et la chaîne d’approvisionnement adoptent de plus en plus l’IDP pour réduire la saisie manuelle et accélérer les processus métier. À mesure que le volume de documents augmente, les solutions IDP permettent des flux de travail autonomes où des systèmes IA peuvent analyser les données extraites et prendre des mesures sans intervention humaine. La capacité de traiter avec précision des factures, des contrats, des dossiers médicaux et des documents réglementaires est devenue une nécessité commerciale. Le développement de solutions IDP efficaces exige non seulement des capacités d’extraction robustes, mais aussi des cadres d’évaluation adaptés aux besoins de l’industrie et des cas d’utilisation spécifiques. Cet article démontre une approche complète pour construire et évaluer une solution KIE en utilisant les modèles Nova disponibles via Amazon Bedrock, avec trois phases: préparation des données, développement de la solution et évaluation des performances ( précision, efficacité et coût). L’ensemble FATURA sert d’proxy réaliste pour des données d’entreprise réelles et permet de montrer comment sélectionner et évaluer des modèles de fond pour des tâches de traitement documentaire, tout en considérant l’extraction précise, la vitesse et les coûts. Le public visé comprend les scientifiques des données, les développeurs et les analystes métier. L’ensemble FATURA comprend 10 000 factures réparties sur 50 mises en page, avec 24 champs par document. Pour l’évaluation, 40 documents issus de 49 mises en page ont été échantillonnés, soit 1 960 échantillons, avec des annotations ground-truth pour 24 champs. Les variations de ground truth ont été normalisées pour garantir une évaluation équitable. La distribution des champs est marquée par un déséquilibre et reflète les défis réels d’extraction, tels que les champs manquants et les valeurs multiples. Cette étude illustre également l’importance d’un cadre d’évaluation robuste et non limitatif. Les modèles Bedrock et l’API Converse offrent une interface simplifiée pour tester des modèles de base sans se soucier du formatage spécifique à chaque modèle, facilitant les essais et les comparaisons pour les tâches d’extraction de documents. L’article discute aussi de la conception de prompts multi-modal et de templates pour assurer une cohérence entre les scénarios d’extraction. AWS ML Blog

Nouveautés et innovations

Pipeline KIE de bout en bout utilisant les modèles Bedrock Nova via l’API Converse, avec une interface unifiée pour interagir avec différents modèles.
Stratégies de prompting indépendantes du modèle et templates (Jinja2) pour maintenir une structure de prompt unique tout en intégrant des logiques métier.
Gestion des défis réels des données: champs manquants, valeurs multiples, textes structurés et non structurés, et hiérarchies de valeur telles que les taxes dépendant des sous-totaux.
Prise en charge d’entrées multimodales (texte, images ou multimodal) via une structure d’entrée unifiée, simplifiant le traitement des documents.
Normalisation des ground truth et préparation des données pour une évaluation impartiale, y compris l’alignement des sorties LLM sur les champs attendus.
Utilisation de LangChain PromptTemplate pour peupler les prompts avec les données du document, y compris le texte OCR et les descriptions de champs.
Évaluation détaillée avec F1-score, en tenant compte des variations de format et de l’importance relative des champs, tout en intégrant latence et coût par document.

Pourquoi c’est important (impact pour les développeurs et les entreprises)

Pour les développeurs et les scientifiques des données, cet article clarifie comment tester des modèles de base pour le traitement des documents sans dépendre de règles spécifiques à chaque modèle. L’API Converse permet des itérations rapides et des comparaisons entre modèles en termes de qualité d’extraction, de vitesse et de coût. Pour les entreprises, l’approche propose un cadre d’évaluation aligné sur les objectifs métiers, en utilisant un ensemble réaliste comme FATURA et en mettant l’accent sur des métriques qui reflètent la valeur opérationnelle. Cela aide les organisations à choisir les modèles et configurations qui équilibrent l’exactitude, le débit et les coûts de déploiement. L’accent est mis sur la gestion des données manquantes et des champs à valeurs multiples, tout en supportant des entrées multi-modales, ce qui reflète les scénarios réels des documents. Le message clé est d’ouvrir la voie à un traitement de documents scalable, précis et rentable, intégré dans des flux de travail automatisés. Les conseils s’inscrivent dans une utilisation pratique des Bedrock et des modèles LLM pour les pipelines de données d’entreprise. AWS ML Blog

Détails techniques ou Mise en œuvre

L’implémentation repose sur un pipeline en trois phases et un ensemble de techniques pour des solutions KIE évolutives:

Préparation des données et normalisation de ground truth: FATURA regroupe 10 000 factures sur 50 mises en page, avec 24 champs par document. La normalisation élimine les incohérences de préfixes et d’affichage des champs, garantissant une évaluation équitable.
Interaction modélisée via Converse API: interface unifiée pour invoquer des modèles de base, facilitant l’expérimentation et la comparaison entre modèles pour les tâches d’extraction.
Prompts et templating: les prompts cohérents utilisent des templates (Jinja2) et sont peuplés via LangChain PromptTemplate avec des variables telles que OCR et descriptions de champs pour générer le prompt final.
Gestion multimodale: les entrées texte et image peuvent être combinées dans une seule demande via une structure de contenu unifiée, simplifiant la logique de traitement.
Traitement d’image: la fonction image_to_bytes convertit les images en un format lisible par le modèle, avec des ajustements potentiels de redimensionnement.
Cadre d’évaluation: les comparateurs de champ déterminent les TP/FP/FN en fonction de la correspondance avec ground truth, en tenant compte des variations de format et des priorités des champs. L’évaluation intègre également latence et coût par document. | Fact / Charact. | Détails |--- |--- |FATURA | 10 000 factures, 50 mises en page |Variété de mises en page | 50 mises en page distinctes; 24 champs par document |Ample ground truth | 1 960 échantillons (40 documents sur 49 mises en page) |Distribution des champs | 18 champs avec occurrences variables (250 à 1 800) |Normalisation ground truth | Harmonisation des prefixes et formats sur la sortie modèle |
Métrique d’évaluation: F1-score pour balancer précision et rappel, avec des comparateurs de champ spécifiques pour gérer les variations de format et les valeurs numériques. L’approche tient aussi compte de l’importance relative des champs dans l’objectif métier et de l’impact de latence et coût. AWS ML Blog

Conclusions et points clés (Takeaways)

Les pipelines KIE basés sur des modèles de base peuvent être explorés via Bedrock avec une API unifiée, facilitant les essais et les comparaisons.
La normalisation du ground truth est essentielle pour des évaluations équitables sur des documents à layouts variés.
Les prompts multi-modaux et les templates flexibles permettent l’extraction à partir de différents types de documents.
L’évaluation doit équilibrer les métriques techniques et les considérations métier (latence et coût).
FATURA offre un proxy réaliste pour les factures d’entreprise, démontrant les défis tels que champs manquants et valeurs multiples.

FAQ

Quel est le rôle de FATURA dans cette étude ?

FATURA fournit 10 000 factures sur 50 mises en page avec 24 champs chacun, utilisées pour illustrer la normalisation des ground truth, l’échantillonnage et les stratégies d’évaluation pour KIE.
Pourquoi utiliser l’API Converse dans Bedrock pour les tâches KIE ?

L’API Converse offre une interface unifiée pour interagir avec des modèles de base, facilitant l’expérimentation et la comparaison de la qualité d’extraction, de la vitesse et du coût.
Comment la qualité d’extraction est-elle mesurée ?

La qualité est mesurée par le F1-score, qui équilibre précision et rappel, avec des comparateurs de champ prenant en compte les variations de format.
uels facteurs pratiques entrent dans l’évaluation au-delà de la précision ?

La latence et le coût par document sont pris en compte pour refléter les contraintes opérationnelles et les décisions de déploiement.