Éliciter la récupération et le raisonnement en contexte pour les modèles de langage à long contexte (ICR2) — Benchmark et techniques
Sources: https://machinelearning.apple.com/research/eliciting-in-context, machinelearning.apple.com
TL;DR
- Les modèles de langage à long contexte (LCLMs) avec des fenêtres de contexte étendues permettent la récupération et le raisonnement en contexte (ICR2), ce qui peut transformer la génération assistée par récupération (RAG) en simplifiant les pipelines. Cette capacité est définie comme ICR2.
- L’article présente ICR2, un benchmark conçu pour évaluer les LCLMs dans des scénarios plus réalistes, incluant des documents confondants récupérés par des récupérateurs puissants.
- Trois méthodes proposées pour améliorer les performances des LCLMs : (1) fine-tuning retrieve-then-generate, (2) modélisation explicite d’une tête de récupération entraînée conjointement avec la tête de génération, et (3) décodage avec probing d’attention sur la récupération pour filtrer et affiner les contextes longs.
- Lors de tests sur quatre LCLMs bien connus, l’application de ces approches à Mistral-7B donne des améliorations: +17 et +15 sur LOFT, et +13 et +2 sur ICR2, par rapport à zéro-shot RAG et modèles fine-tunés supervisés in-domain, respectivement. Le système peut même surpasser le GPT-4 sur la plupart des tâches malgré une taille de modèle inférieure.
Contexte et arrière-plan
Les grands modèles de langage (LLMs) montrent une forte capacité de généralisation mais présentent des inconvénients lorsque le contexte est long. Le coût d’inférence croît quadratiquement avec la longueur du contexte, rendant l’implémentation coûteuse pour les textes longs et les flux RAG. Le phénomène de distraction peut également dégrader les performances lorsque du contenu non pertinent encombre l’entrée. RAG dépend traditionnellement d’un récupérateur explicite pour trouver des documents pertinents; toutefois, cette étape peut être fragile si les données ou les invites contiennent des informations contradictoires. Ces considérations motivent une exploration plus approfondie des architectures à long contexte et des benchmarks plus réalistes. Pour plus de détails, consultez l’article ICML présentant ICR2 et les discussions liées sur LOFT et le raisonnement basé sur la récupération dans des contextes longs source.
Quoi de neuf
Les auteurs apportent trois contributions clés :
- Benchmark ICR2 : un ensemble de données conçu pour évaluer les LCLMs dans des scénarios plus réalistes, incluant des documents confondants récupérés par des outils puissants.
- Méthodes d’amélioration par récupération et génération : propose une approche fine-tuning retrieve-then-generate, une tête de récupération entraînée conjointement avec la tête de génération et un décodage avec probing d’attention pour filtrer et affiner le contexte long.
- Résultats empiriques sur quatre LCLMs bien connues : appliqué à Mistral-7B, l’approche optimale obtient des gains dans LOFT (+17 et +15) et dans ICR2 (+13 et +2). Les résultats peuvent même dépasser le GPT-4 sur la plupart des tâches malgré une taille de modèle plus petite. L’étude argumente que LOFT peut surestimer les performances des LCLMs en absence de contextes suffisamment difficiles, d’où la nécessité d’ICR2 pour une évaluation plus réaliste.
Pourquoi cela compte (impact pour les développeurs/entreprises)
- Chaînes RAG plus simples : permettre aux LCLMs de gérer la récupération et le raisonnement dans des contextes étendus peut rendre les flux de travail plus directs, en diminuant la dépendance à des récupérateurs externes à l’inférence.
- Coût et évolutivité : traiter des contextes longs implique des coûts d’inférence qui croissent de manière non linéaire; comprendre et atténuer cela via les techniques ICR2 peut influencer les choix de déploiement pour des tâches de traitement de texte à grande échelle.
- Robustesse face aux documents confondants : ICR2 intègre des scénarios avec documents conflictuels, guidant les développeurs vers des modèles et des stratégies de décodage plus robustes dans des environnements réels.
- valeur pratique : la combinaison de fine-tuning retrieve-then-generate, têtes de récupération conjointement entraînées et décodage avec probing d’attention offre un ensemble de mécanismes concrets pour améliorer le raisonnement en contexte long, avec des gains démontrés sur des benchmarks et un positionnement compétitif face à des modèles plus grands.
Détails techniques ou Mise en œuvre
- Fine-tuning retrieve-then-generate : régime de formation utilisant les documents récupérés pour entraîner le modèle à intégrer le contexte pertinent avant la génération.
- Tête de récupération explicite entraînée conjointement avec la tête de génération : une architecture où les paramètres de récupération sont optimisés conjointement avec ceux de génération.
- Décodage avec probing d’attention sur la récupération : pendant le décodage, des têtes d’attention servent à filtrer et affiner le contexte long.
- Portée des benchmarks : les gains sont mesurés sur quatre LCLMs bien connues, avec un accent démonstratif sur Mistral-7B.
- Benchmarks discutés : LOFT et ICR2 servent à quantifier les améliorations par rapport aux baselines RAG zéro-shot et fine-tuning supervisé in-domain, illustrant des gains dans des contextes standardisés et plus réalistes.
Points clés
- ICR2 formalise la récupération et le raisonnement en contexte comme un paradigme cohérent pour les LCLMs de long contexte, poussant le raisonnement guidé par récupération dans des contextes étendus.
- Un benchmark réaliste (ICR2) complète les benchmarks existants en introduisant des scénarios de récupération avec confluent et en améliorant l’évaluation et les signaux d’entraînement pour les LCLMs.
- Trois méthodes pratiques — fine-tuning retrieve-then-generate, modélisation conjointe tête récupération/génération, et décodage avec probing d’attention — fournissent une boîte à outils concrète pour améliorer le raisonnement en contexte long.
- Avec Mistral-7B, les gains sur LOFT (+17/+15) et ICR2 (+13/+2) démontrent des améliorations significatives par rapport aux baselines zéro-shot RAG et fines tunes supervisées in-domain, avec des performances proches de GPT-4 dans de nombreuses tâches malgré une taille de modèle plus petite.
FAQ
Références
More news
NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé
Le HGX B200 de NVIDIA abaisse l’intensité des émissions de carbone incorporé de 24% par rapport au HGX H100, tout en offrant de meilleures performances IA et une efficacité énergétique accrue. Cet article résume les données PCF et les nouveautés matérielles.
Réduire la latence de démarrage à froid pour l’inférence LLM avec NVIDIA Run:ai Model Streamer
Analyse approfondie sur la façon dont NVIDIA Run:ai Model Streamer abaisse les temps de démarrage à froid pour l’inférence des LLM en diffusant les poids vers la mémoire GPU, avec des benchmarks sur GP3, IO2 et S3.
Simplifier l accès aux changements de contenu ISO-rating avec Verisk Rating Insights et Amazon Bedrock
Verisk Rating Insights, propulsé par Amazon Bedrock, LLM et RAG, offre une interface conversationnelle pour accéder aux changements ERC ISO, réduisant les téléchargements manuels et accélérant les informations fiables.
Comment msg a renforcé la transformation RH avec Amazon Bedrock et msg.ProfileMap
Cet article explique comment msg a automatisé l'harmonisation des données pour msg.ProfileMap en utilisant Amazon Bedrock pour alimenter des flux d'enrichissement pilotés par LLM, améliorant la précision de l'appariement des concepts RH, réduisant la charge manuelle et assurant la conformité avec l'
Automatiser des pipelines RAG avancés avec Amazon SageMaker AI
Optimisez l’expérimentation jusqu’à la production pour le RAG (Retrieval Augmented Generation) avec SageMaker AI, MLflow et Pipelines, afin d’obtenir des flux reproductibles, évolutifs et gouvernés.
Déverrouillez les insights du modèle grâce au support des probabilités de log pour l’importation de modèle personnalisé Amazon Bedrock
Explique les probabilités de log au niveau des tokens pour les modèles importés, comment les activer et leurs cas d’usage pratiques.