Skip to content
TextQuests : Évaluer les LLM dans des jeux d’aventure textuels
Source: huggingface.co

TextQuests : Évaluer les LLM dans des jeux d’aventure textuels

Sources: https://huggingface.co/blog/textquests, Hugging Face Blog

Aperçu

TextQuests est un benchmark construit sur 25 jeux classiques d’infocom (fiction interactive). Ces jeux basés sur du texte exigent des centaines d’actions précises au cours de sessions longues, offrant un terrain d’évaluation exigeant pour le raisonnement des agents dans des environnements dynamiques. Le benchmark vise à évaluer les LLMs en tant qu’agents autonomes dans des environnements exploratoires où un raisonnement sur le long terme, la mémoire et l’apprentissage autodirigé sont essentiels. Contrairement aux benchmarks statiques de connaissances, TextQuests demande à l’agent de s’appuyer uniquement sur ses capacités intrinsèques, sans outils externes. Pour chaque modèle, deux évaluations sont effectuées : With Clues (indices officiels) puis No Clues (aucun indice). Chaque évaluation est limitée à 500 étapes et se termine si le jeu est résolu. L’historique complet du jeu est conservé sans tronquation pour tester la capacité de raisonnement dans un contexte croissant, rendu faisable grâce au caching des prompts dans les cadres d’inférence LLM modernes. Deux métriques centrales sont utilisées. Progrès du jeu suit l’avancement le long d’objectifs étiquetés pour finir le jeu. Harm mesure l’aspect éthique en traçant les actions du jeu considérées comme nuisibles, et le score est moyenné sur tous les jeux. Un axe clé est le raisonnement en contexte long: les agents doivent planifier et agir à partir d’un historique étendu d’observations et d’indices, en s’appuyant uniquement sur leurs capacités intrinsèques. À mesure que le contexte se rallonge (souvent > 100K tokens), les modèles peuvent être sujets à des hallucinations sur des interactions passées ou à des répétitions d’actions. Ces défis sont particulièrement marqués dans des tâches nécessitant le raisonnement spatial (par exemple Wishbringer) et dans les labyrinthes comme le Maze du Zork I. La section Pensée dynamique met en évidence le compromis entre réussite de la tâche et coût d’inférence; des calculs plus importants pendant le test peuvent aider, mais les gains se réduisent après un certain budget. TextQuests vise à évaluer la capacité du modèle à progresser de manière cohérente dans une suite longue d’actions, fournissant une mesure directe du rôle du LLM en tant que colonne vertébrale du raisonnement d’un système d’agent autonome. Les auteurs soulignent l’intérêt croissant pour l’évaluation d’agents dans des environnements ouverts et exploratoires et font référence à des travaux connexes (Balrog, ARC-AGI) ainsi qu’à des démonstrations de Claude et Gemini jouant à Pokémon, pour situer TextQuests dans ce paysage en évolution. Ils concluent en proposant TextQuests en tant qu’outil open-source pour aider les chercheurs à évaluer les capacités des agents LLM dans des environnements exploratoires exigeants et invitent la communauté à participer via un Leaderboard open-source en envoyant un message à [email protected].

Caractéristiques clés

  • raisonnement sur un horizon long avec un historique croissant à partir de 25 jeux Infocom, testant un planificateur persistant
  • apprentissage par exploration: les agents doivent s’améliorer par essais et erreurs sans outils externes
  • deux évaluations par modèle: With Clues et No Clues; chaque évaluation comprend jusqu’à 500 étapes et se termine à la résolution du jeu
  • contexte complet non tronqué: les historiques sont conservés pour tester les performances dans de longs contextes, rendu possible grâce au caching des prompts
  • deux métriques: Progrès du jeu et Harm (comportement éthique)
  • analyse des défis du long contexte: hallucinations, boucles et difficultés de navigation spatiale
  • Pensée dynamique: équilibre entre succès et coût d’inférence; les gains diminuent avec le budget de calcul après un certain point
  • focalisé sur les capacités intrinsèques comme colonne vertébrale du raisonnement, sans outils externes
  • open-source et esprit communautaire: invitation à soumettre au Leaderboard TextQuests ([email protected])
  • travaux connexes: Balrog, ARC-AGI et démonstrations de Claude/Gemini jouant Pokémon situent TextQuests dans ce champ
CaractéristiqueAvantage
Fenêtre de contexte longueTeste mémoire et planification sur des historiques étendus
Sans outils externesIsole le raisonnement intrinsèque
Limite de 500 étapesRend les expériences gérables
Clues vs. No CluesMesure l’impact des indices externes sur la performance
Métrique HarmEncourage un comportement éthique

Cas d’utilisation courants

  • Évaluer des agents LLM autonomes dans l’exploration à long terme où mémoire et planification comptent.
  • Évaluer comment les modèles maintiennent une carte mentale et évitent de répéter des erreurs sur des centaines d’actions.
  • Étudier l’impact des longs contextes sur la qualité des décisions, l’efficacité et les modes d’erreur dans des tâches interactives.
  • Fournir un cadre difficile pour comparer différentes familles de LLM et régimes d’ajustement des instructions dans des environnements exploratoires.

Configuration & installation

# Détails de configuration et d’installation non fournis dans la source.

Démarrage rapide

  • La source ne propose pas de code exécutable ni d’instructions concrètes; référez-vous aux références pour accéder au Leaderboard et au matériel.

Avantages et inconvénients

  • Avantages
  • Base de test riche pour le raisonnement sur long terme et la planification soutenue
  • Accent sur l’exploration autonome sans outils externes
  • Benchmark open-source avec protocole d’évaluation clair
  • Jeux textuels réalistes et ouverts qui sollicitent la mémoire et le raisonnement spatial
  • Inconvénients
  • Contextes très longs peuvent provoquer des hallucinations et des boucles, notamment dans les tâches spatiales
  • Demande une puissance de calcul importante pour gérer des contextes >100K tokens et des historiques longs
  • Limité à la fiction interactive basée sur le texte; la généralisation vers d’autres modalités nécessite validation

Alternatives

| Benchmark / Démonstration | Focus / Evidence dans l’article | Remarques |---|---|---| | Balrog | Mentionné comme travail connexe sur l’évaluation d’agents | Évaluation ouverte dans un cadre open-world |ARC-AGI | Mentionné comme benchmark connexe | Accent sur le raisonnement de type AGI en exploration |Démonstrations Pokémon (Claude, Gemini) | Démonstrations de LLM jouant à Pokémon | Tâches réelles dans un monde ouvert |

Prix ou Licence

  • Le texte décrit TextQuests comme open-source et appelle à des soumissions au Leaderboard, mais il ne précise ni licence ni tarification. Licence non spécifiée.

Références

More resources