Déverrouillez les insights du modèle grâce au support des probabilités de log pour l’importation de modèle personnalisé Amazon Bedrock

TL;DR

Le support des probabilités de log pour l’importation de modèle personnalisé offre des données de confiance au niveau des tokens pour les modèles importés sur Bedrock tels que Llama, Mistral et Qwen.
Activez-le en définissant “return_logprobs”: true dans la requête InvokeModel; la réponse inclut les probabilités de log pour les tokens de prompt et les tokens générés.
Utilisez les probabilités de log pour classer les sorties, détecter les hallucinations, évaluer les modèles finement ajustés et optimiser les prompts et les systèmes RAG (recherche-Augmentée par Génération).
Un exemple avec un modèle Llama 3.2 1B affiné illustre le décodage des IDs de tokens et la conversion des probabilités de log en probabilités compréhensibles.

Contexte et arrière-plan

Bedrock Custom Model Import permet d’intégrer sans couture vos modèles personnalisés—comme Llama, Mistral et Qwen—que vous avez affinés ailleurs, dans Amazon Bedrock. L’expérience est serverless, avec une gestion d’infrastructure minimale et un accès API unifié avec les modèles Bedrock natifs. Vos modèles personnalisés bénéficient de la scalabilité automatique, de la sécurité de niveau entreprise et d’une intégration native avec les Guardrails et les Knowledge Bases de Bedrock. Comprendre le niveau de confiance d’un modèle dans ses prédictions est essentiel pour construire des applications IA fiables, surtout pour des domaines spécifiques. Avec le support des probabilités de log ajouté au Custom Model Import, vous pouvez accéder à des informations sur la confiance des prédictions au niveau des tokens. Cette amélioration offre une meilleure visibilité et permet de nouvelles capacités d’évaluation, de notation de confiance et de filtrage avancé.

Nouvelles fonctionnalités

Dans cette version, Bedrock permet désormais que les modèles importés via Custom Model Import retournent des probabilités de log par token dans la réponse d’inférence. Lors de l’invocation d’un modèle via l’API InvokeModel de Bedrock, vous pouvez accéder aux probabilités de log des tokens en définissant “return_logprobs”: true dans le corps JSON de la requête. Avec ce drapeau activé, la réponse du modèle inclut des champs supplémentaires fournissant des probabilités de log aussi bien pour les tokens de prompt que pour les tokens générés, afin que les clients puissent analyser la confiance du modèle dans ses prédictions. Ces probabilités permettent une évaluation quantitative de la confiance avec les modèles personnalisés lorsqu’ils traitent des entrées et génèrent des réponses. Des métriques granulaires facilitent une meilleure évaluation de la qualité des réponses, le dépannage des sorties inattendues et l’optimisation des prompts ou des configurations de modèle. Supposons que vous ayez déjà importé un modèle personnalisé (par exemple, un modèle Llama 3.2 1B affiné) dans Amazon Bedrock et que vous disposiez de son ARN de modèle. Vous pouvez invoquer ce modèle à l’aide du Bedrock Runtime SDK (Boto3 pour Python dans cet exemple) comme illustré ci-dessous: dans le code, nous envoyons un prompt— “The quick brown fox jumps” —à notre modèle importé. Nous configurons des paramètres d’inférence standards: longueur maximale de génération de 50 tokens, une température modérée de 0,5 pour une certaine randomness, et une condition d’arrêt (un point ou une nouvelle ligne). Le paramètre “return_logprobs”: true indique à Bedrock de retourner les probabilités de log dans la réponse. L’API InvokeModel renvoie une réponse JSON qui contient trois éléments principaux: le texte généré standard, des métadonnées sur le processus de génération, et désormais des probabilités de log pour les tokens de prompt et générés. Ces valeurs révèlent la confiance interne du modèle pour chaque prédiction de token, vous permettant de comprendre non seulement le texte produit, mais aussi dans quelle mesure le modèle était sûr à chaque étape. La réponse brute de l’API fournit des IDs de tokens associés à leurs probabilités de log. Pour rendre ces données interprétables, il faut d’abord décoder les IDs de tokens à l’aide du bon tokeniseur (dans ce cas, le tokeniseur Llama 3.2 1B), qui fait correspondre chaque ID au token texte réel. Ensuite, on convertit les probabilités de log en probabilités en appliquant la fonction exponentielle, ce qui donne des probabilités comprises entre 0 et 1. Ces transformations peuvent être réalisées via du code personnalisé pour obtenir un format lisible où chaque token est associé à sa probabilité et où la confiance du modèle est immédiatement évidente. Les probabilités de log par token provenant de la fonction Custom Model Import offrent des informations précieuses sur le raisonnement du modèle. Ces métriques transforment votre interaction avec vos modèles personnalisés en révélant le niveau de confiance pour chaque token généré. Voici des usages pratiques:

Utilisez les probabilités de log pour classer quantitativement plusieurs sorties générées pour le même prompt. Pour choisir entre plusieurs complétions, calculez la probabilité globale de chaque sortie en additionnant ou en moyennant les probabilités de log de tous ses tokens.
Les modèles peuvent produire des hallucinations; les probabilités de log permettent d’identifier les segments où le modèle est incertain et d’appliquer des mécanismes de vérification ou de récupération contextuelle.
Dans des scénarios RAG, les réponses doivent être ancrées dans le contexte récupéré; les probabilités de log aident à repérer les portions de réponse soutenues par le contexte ou par des connaissances générales.
L’analyse des premiers tokens peut aider à évaluer la clarté du prompt: des probabilités moyennes plus élevées pour les tokens initiaux indiquent généralement des instructions plus déterminées.

Pourquoi cela compte pour les développeurs et les entreprises

Pour les développeurs et les entreprises qui déploient l’IA en production, l’accès aux probabilités de log par token permet une évaluation plus précise du comportement du modèle et de sa confiance dans les réponses. Cela soutient des décisions éclairées en matière de:

classement et sélection entre plusieurs sorties candidates pour un même prompt
détection et atténuation des hallucinations en exposant des tokens incertains
amélioration de la génération avec récupération en ancrant les réponses dans un contexte vérifié
diagnostic des échecs et affinage des prompts, des configurations ou des jeux de données de fine-tuning Cette capacité s’aligne avec les objectifs plus vastes de Bedrock: IA évolutive, sécurisée et observable, et elle complète des fonctionnalités comme Guardrails et Knowledge Bases en donnant aux développeurs une vision quantitative des décisions du modèle. Vous pouvez lire l’annonce officielle et les exemples d’utilisation dans le billet de blog AWS référencé.

Détails techniques ou Mise en œuvre

Pour utiliser le support des probabilités de log avec l’importation de modèle personnalisé dans Amazon Bedrock, vous devez:

Invoquer un modèle via l’API InvokeModel et définir le paramètre JSON “return_logprobs”: true. Cela active les probabilités de log par token pour les tokens de prompt et générés dans la réponse.
Recevoir une réponse JSON qui inclut le texte généré standard, les métadonnées de génération et les nouveaux champs de probabilités de log. Ces valeurs révèlent la confiance interne du modèle pour chaque token pendant le traitement.
Décoder les IDs de token de la réponse à l’aide du tokeniseur approprié (par exemple, le tokeniseur Llama 3.2 1B) pour mapper les IDs sur les tokens texte.
Convertir les probabilités de log en probabilités en appliquant la fonction exponentielle, afin d’obtenir des valeurs entre 0 et 1. Cela facilite l’interprétation et la comparaison entre candidats. Le scénario ci-dessous est décrit dans le billet AWS:
Vous avez importé un modèle personnalisé, tel qu’un modèle Llama 3.2 1B affiné, et vous disposez de son ARN.
Vous l’invoquez avec un prompt tel que “The quick brown fox jumps” et demandez une longueur maximale de génération de 50 tokens, une température de 0,5 et une condition d’arrêt (point ou nouvelle ligne). Le paramètre “return_logprobs”: true fait en sorte que la réponse inclue les probabilités de log pour les tokens de prompt et générés.
La réponse comporte le texte généré, ainsi que les probabilités de log par token. Vous pouvez décoder les IDs de token en texte et convertir les probabilités de log en probabilités pour obtenir une représentation lisible de la confiance du modèle à chaque étape. Ce que vous faites ensuite dépend de votre cas d’utilisation. Voici des modèles représentatifs:
Classer les complétions concurrentes par leur probabilité de log totale et présenter l’option la plus probable aux utilisateurs ou aux composants en aval.
Utiliser les tokens à faible confiance pour déclencher une vérification, récupérer du contexte supplémentaire ou poser des questions de clarification dans un système de dialogue.
Dans les scénarios RAG, identifier les tokens étayés par le contexte récupéré en établissant une corrélation entre la confiance des tokens et le contexte obtenu.
Surveiller les premiers tokens des réponses générées pour évaluer la clarté du prompt; des probabilités moyennes plus élevées pour les tokens initiaux indiquent généralement des instructions plus nettes.

Points clés

Les probabilités de log par token fournissent une mesure quantitative de la confiance du modèle pour chaque token.
Activez en incluant “return_logprobs”: true dans la requête de l’API InvokeModel; les résultats incluent les probabilités de log des prompts et des tokens générés.
Décodage des IDs de token puis exponentiation des probabilités de log pour obtenir des probabilités de token interprétables.
Utilisez les probabilités de log pour classer les sorties, détecter les hallucinations, évaluer les prompts et ajuster la génération avec récupération.
Cette approche aide à construire des systèmes IA plus fiables avec des modèles Bedrock personnalisés.