Éliciter la récupération et le raisonnement en contexte pour les modèles de langage à long contexte (ICR2) — Benchmark et techniques

TL;DR

Les modèles de langage à long contexte (LCLMs) avec des fenêtres de contexte étendues permettent la récupération et le raisonnement en contexte (ICR2), ce qui peut transformer la génération assistée par récupération (RAG) en simplifiant les pipelines. Cette capacité est définie comme ICR2.
L’article présente ICR2, un benchmark conçu pour évaluer les LCLMs dans des scénarios plus réalistes, incluant des documents confondants récupérés par des récupérateurs puissants.
Trois méthodes proposées pour améliorer les performances des LCLMs : (1) fine-tuning retrieve-then-generate, (2) modélisation explicite d’une tête de récupération entraînée conjointement avec la tête de génération, et (3) décodage avec probing d’attention sur la récupération pour filtrer et affiner les contextes longs.
Lors de tests sur quatre LCLMs bien connus, l’application de ces approches à Mistral-7B donne des améliorations: +17 et +15 sur LOFT, et +13 et +2 sur ICR2, par rapport à zéro-shot RAG et modèles fine-tunés supervisés in-domain, respectivement. Le système peut même surpasser le GPT-4 sur la plupart des tâches malgré une taille de modèle inférieure.

Contexte et arrière-plan

Les grands modèles de langage (LLMs) montrent une forte capacité de généralisation mais présentent des inconvénients lorsque le contexte est long. Le coût d’inférence croît quadratiquement avec la longueur du contexte, rendant l’implémentation coûteuse pour les textes longs et les flux RAG. Le phénomène de distraction peut également dégrader les performances lorsque du contenu non pertinent encombre l’entrée. RAG dépend traditionnellement d’un récupérateur explicite pour trouver des documents pertinents; toutefois, cette étape peut être fragile si les données ou les invites contiennent des informations contradictoires. Ces considérations motivent une exploration plus approfondie des architectures à long contexte et des benchmarks plus réalistes. Pour plus de détails, consultez l’article ICML présentant ICR2 et les discussions liées sur LOFT et le raisonnement basé sur la récupération dans des contextes longs source.

Quoi de neuf

Les auteurs apportent trois contributions clés :

Benchmark ICR2 : un ensemble de données conçu pour évaluer les LCLMs dans des scénarios plus réalistes, incluant des documents confondants récupérés par des outils puissants.
Méthodes d’amélioration par récupération et génération : propose une approche fine-tuning retrieve-then-generate, une tête de récupération entraînée conjointement avec la tête de génération et un décodage avec probing d’attention pour filtrer et affiner le contexte long.
Résultats empiriques sur quatre LCLMs bien connues : appliqué à Mistral-7B, l’approche optimale obtient des gains dans LOFT (+17 et +15) et dans ICR2 (+13 et +2). Les résultats peuvent même dépasser le GPT-4 sur la plupart des tâches malgré une taille de modèle plus petite. L’étude argumente que LOFT peut surestimer les performances des LCLMs en absence de contextes suffisamment difficiles, d’où la nécessité d’ICR2 pour une évaluation plus réaliste.

Pourquoi cela compte (impact pour les développeurs/entreprises)

Chaînes RAG plus simples : permettre aux LCLMs de gérer la récupération et le raisonnement dans des contextes étendus peut rendre les flux de travail plus directs, en diminuant la dépendance à des récupérateurs externes à l’inférence.
Coût et évolutivité : traiter des contextes longs implique des coûts d’inférence qui croissent de manière non linéaire; comprendre et atténuer cela via les techniques ICR2 peut influencer les choix de déploiement pour des tâches de traitement de texte à grande échelle.
Robustesse face aux documents confondants : ICR2 intègre des scénarios avec documents conflictuels, guidant les développeurs vers des modèles et des stratégies de décodage plus robustes dans des environnements réels.
valeur pratique : la combinaison de fine-tuning retrieve-then-generate, têtes de récupération conjointement entraînées et décodage avec probing d’attention offre un ensemble de mécanismes concrets pour améliorer le raisonnement en contexte long, avec des gains démontrés sur des benchmarks et un positionnement compétitif face à des modèles plus grands.

Détails techniques ou Mise en œuvre

Fine-tuning retrieve-then-generate : régime de formation utilisant les documents récupérés pour entraîner le modèle à intégrer le contexte pertinent avant la génération.
Tête de récupération explicite entraînée conjointement avec la tête de génération : une architecture où les paramètres de récupération sont optimisés conjointement avec ceux de génération.
Décodage avec probing d’attention sur la récupération : pendant le décodage, des têtes d’attention servent à filtrer et affiner le contexte long.
Portée des benchmarks : les gains sont mesurés sur quatre LCLMs bien connues, avec un accent démonstratif sur Mistral-7B.
Benchmarks discutés : LOFT et ICR2 servent à quantifier les améliorations par rapport aux baselines RAG zéro-shot et fine-tuning supervisé in-domain, illustrant des gains dans des contextes standardisés et plus réalistes.

Points clés

ICR2 formalise la récupération et le raisonnement en contexte comme un paradigme cohérent pour les LCLMs de long contexte, poussant le raisonnement guidé par récupération dans des contextes étendus.
Un benchmark réaliste (ICR2) complète les benchmarks existants en introduisant des scénarios de récupération avec confluent et en améliorant l’évaluation et les signaux d’entraînement pour les LCLMs.
Trois méthodes pratiques — fine-tuning retrieve-then-generate, modélisation conjointe tête récupération/génération, et décodage avec probing d’attention — fournissent une boîte à outils concrète pour améliorer le raisonnement en contexte long.
Avec Mistral-7B, les gains sur LOFT (+17/+15) et ICR2 (+13/+2) démontrent des améliorations significatives par rapport aux baselines zéro-shot RAG et fines tunes supervisées in-domain, avec des performances proches de GPT-4 dans de nombreuses tâches malgré une taille de modèle plus petite.

FAQ

Références

https://machinelearning.apple.com/research/eliciting-in-context

Éliciter la récupération et le raisonnement en contexte pour les modèles de langage à long contexte (ICR2) — Benchmark et techniques

TL;DR

Contexte et arrière-plan

Quoi de neuf

Pourquoi cela compte (impact pour les développeurs/entreprises)

Détails techniques ou Mise en œuvre

Points clés

FAQ

Références

More news

NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé

Réduire la latence de démarrage à froid pour l’inférence LLM avec NVIDIA Run:ai Model Streamer

Simplifier l accès aux changements de contenu ISO-rating avec Verisk Rating Insights et Amazon Bedrock

Comment msg a renforcé la transformation RH avec Amazon Bedrock et msg.ProfileMap

Automatiser des pipelines RAG avancés avec Amazon SageMaker AI

Déverrouillez les insights du modèle grâce au support des probabilités de log pour l’importation de modèle personnalisé Amazon Bedrock