Skip to content
Citations avec Amazon Nova : permettre aux modèles de compréhension Nova de citer des sources
Source: aws.amazon.com

Citations avec Amazon Nova : permettre aux modèles de compréhension Nova de citer des sources

Sources: https://aws.amazon.com/blogs/machine-learning/citations-with-amazon-nova-understanding-models, aws.amazon.com

TL;DR

  • Les grands modèles de langage (LLMs) peuvent être instruits à citer des sources pour appuyer leurs affirmations et montrer leur raisonnement, renforçant ainsi la fiabilité.
  • Amazon Nova est une famille de modèles de fond intégrés à Amazon Bedrock, lancée en décembre 2024, comprenant quatre modèles de compréhension (Nova Micro, Nova Lite, Nova Pro, Nova Premier).
  • Cet article montre comment inciter les modèles de compréhension Nova à citer des sources et comment évaluer les réponses et les citations à grande échelle à l’aide d’une approche LLM-juge.
  • Un exemple concret utilise Nova Pro pour répondre à des questions sur des lettres d’actionnaires, avec des citations provenant de ces lettres; l’évaluation a utilisé Claude 3.5 Sonnet v1 et a rapporté une cohérence et fidélité de 0,78 et une exactitude de 0,67.
  • Le travail est open-source via le GitHub AWS Samples, avec d’autres ressources comme une bibliothèque de prompts et des conseils d’évaluation Bedrock.

Contexte et arrière-plan

Les LLMs sont devenus omniprésents dans les applications d’entreprise et grand public, mais leur tendance à « halluciner » des informations peut saper la confiance. La confiance augmente lorsque les modèles peuvent étayer leurs affirmations avec des références vérifiables et montrer clairement leur raisonnement. Amazon Nova, présenté en 2024 et disponible via Amazon Bedrock, repose sur une approche innovante et performante sur le plan tarifaire, couvrant quatre modèles de compréhension (Nova Micro, Nova Lite, Nova Pro, Nova Premier), deux modèles de création (Nova Canvas et Nova Reel) et un modèle de synthèse vocale (Nova Sonic). Les citations désignent des sources qui indiquent l’origine des informations. En instruisant les modèles de compréhension Nova à citer leurs sources et à présenter les citations dans un format de sortie défini, les développeurs peuvent créer des applications IA plus fiables et éthiquement fondées. Cet article illustre les meilleures pratiques pour tester Nova Pro afin de citer des sources issues du contexte et montre comment structurer les prompts pour que les citations apparaissent telles quelles dans le contexte.

Nouveautés

L’article présente une démonstration concrète : demander à Nova Pro de répondre à des questions sur des lettres d’actionnaires et inclure la lettre dans le prompt comme contexte. Le modèle est invité à répondre et à inclure des citations tirées de la lettre(s). L’exemple met en évidence un format de sortie explicite qui sépare la réponse du modèle des citations, facilitant la révision. Pour illustrer l’évaluation, les auteurs décrivent l’utilisation d’une technique de juge IA dans les évaluations Bedrock pour 10 prompts. Le jugement est réalisé avec le modèle Claude 3.5 Sonnet v1 d’Anthropic et se concentre sur des métriques telles que la cohérence, la fidélité et l’exactitude. Le projet mentionne également que l’ensemble de données d’entrée pour l’évaluation est un fichier jsonl contenant des prompts, et que le code d’évaluation est rendu open source sur le GitHub AWS Samples; une bibliothèque de prompts guide les instructions.

Pourquoi c’est important (impact pour les développeurs/entreprises)

Pour les développeurs qui construisent des flux de travail alimentés par IA, permettre des citations explicites dans les sorties du modèle aide les utilisateurs à vérifier les informations, améliore la traçabilité et soutient les exigences de conformité et d’éthique. Pour les entreprises déployant les modèles Nova sur Bedrock, la capacité de générer des citations et de les évaluer à grande échelle offre une voie pratique pour construire des assistants IA fiables, des outils de données et des solutions de connaissance fondées sur des preuves.

Détails techniques ou mise en œuvre

Les points clés démontrés incluent :

  • Structure du prompt : prompt système + prompt utilisateur qui demande au modèle de citer des sources du contexte fourni et de présenter la sortie sous un format distinct, facilitant l’audit.
  • Inclusion du contexte : la lettre d’actionnaires (1999 ou 2009 selon le texte) est incluse dans le prompt pour ancrer les réponses dans du matériel vérifiable.
  • Citations littérales : le modèle est invité à inclure des citations telles quelles à partir du contexte fourni, évitant les références inventées.
  • Approche d’évaluation : une approche juge IA est utilisée pour évaluer les réponses sur plusieurs métriques (cohérence, fidélité, exactitude). L’évaluation a utilisé l’API Bedrock avec Claude 3.5 Sonnet v1 comme modèle évaluateur.
  • Données et ouverture : l’ensemble de données d’entrée pour l’évaluation est un fichier jsonl; le code d’évaluation est open source sur le GitHub AWS Samples; référence à une bibliothèque de prompts pour guider les instructions. L’objectif est que le modèle suive les instructions de format, cite uniquement à partir du contexte et que les citations puissent être vérifiées par les pipelines d’évaluation.

Points clés à retenir

  • Commander des citations de sources peut rendre les sorties plus fiables et vérifiables.
  • Un format de sortie structuré facilite l’examen et l’audit.
  • La technique juge IA permet une évaluation échelonnée des citations, soutenant l’amélioration continue.
  • Le code d’évaluation ouvert accélère l’adoption et le partage des meilleures pratiques.
  • L’ancrage des prompts dans des documents concrets (par exemple, des lettres d’actionnaires) permet des preuves précises dans les réponses.

FAQ

Références

More news

aws.amazon.com

Utiliser les AWS Deep Learning Containers avec SageMaker AI géré MLflow

Découvrez comment les AWS Deep Learning Containers (DLCs) s’intègrent à SageMaker AI géré par MLflow pour équilibrer le contrôle de l’infrastructure et une gouvernance ML robuste. Un flux TensorFlow pour la prédiction de l’âge des abalones illustre le suivi de bout en bout et la traçabilité des modè