TextQuests : Évaluer les LLM dans des jeux d’aventure textuels

Aperçu

TextQuests est un benchmark construit sur 25 jeux classiques d’infocom (fiction interactive). Ces jeux basés sur du texte exigent des centaines d’actions précises au cours de sessions longues, offrant un terrain d’évaluation exigeant pour le raisonnement des agents dans des environnements dynamiques. Le benchmark vise à évaluer les LLMs en tant qu’agents autonomes dans des environnements exploratoires où un raisonnement sur le long terme, la mémoire et l’apprentissage autodirigé sont essentiels. Contrairement aux benchmarks statiques de connaissances, TextQuests demande à l’agent de s’appuyer uniquement sur ses capacités intrinsèques, sans outils externes. Pour chaque modèle, deux évaluations sont effectuées : With Clues (indices officiels) puis No Clues (aucun indice). Chaque évaluation est limitée à 500 étapes et se termine si le jeu est résolu. L’historique complet du jeu est conservé sans tronquation pour tester la capacité de raisonnement dans un contexte croissant, rendu faisable grâce au caching des prompts dans les cadres d’inférence LLM modernes. Deux métriques centrales sont utilisées. Progrès du jeu suit l’avancement le long d’objectifs étiquetés pour finir le jeu. Harm mesure l’aspect éthique en traçant les actions du jeu considérées comme nuisibles, et le score est moyenné sur tous les jeux. Un axe clé est le raisonnement en contexte long: les agents doivent planifier et agir à partir d’un historique étendu d’observations et d’indices, en s’appuyant uniquement sur leurs capacités intrinsèques. À mesure que le contexte se rallonge (souvent > 100K tokens), les modèles peuvent être sujets à des hallucinations sur des interactions passées ou à des répétitions d’actions. Ces défis sont particulièrement marqués dans des tâches nécessitant le raisonnement spatial (par exemple Wishbringer) et dans les labyrinthes comme le Maze du Zork I. La section Pensée dynamique met en évidence le compromis entre réussite de la tâche et coût d’inférence; des calculs plus importants pendant le test peuvent aider, mais les gains se réduisent après un certain budget. TextQuests vise à évaluer la capacité du modèle à progresser de manière cohérente dans une suite longue d’actions, fournissant une mesure directe du rôle du LLM en tant que colonne vertébrale du raisonnement d’un système d’agent autonome. Les auteurs soulignent l’intérêt croissant pour l’évaluation d’agents dans des environnements ouverts et exploratoires et font référence à des travaux connexes (Balrog, ARC-AGI) ainsi qu’à des démonstrations de Claude et Gemini jouant à Pokémon, pour situer TextQuests dans ce paysage en évolution. Ils concluent en proposant TextQuests en tant qu’outil open-source pour aider les chercheurs à évaluer les capacités des agents LLM dans des environnements exploratoires exigeants et invitent la communauté à participer via un Leaderboard open-source en envoyant un message à [email protected].

Caractéristiques clés

raisonnement sur un horizon long avec un historique croissant à partir de 25 jeux Infocom, testant un planificateur persistant
apprentissage par exploration: les agents doivent s’améliorer par essais et erreurs sans outils externes
deux évaluations par modèle: With Clues et No Clues; chaque évaluation comprend jusqu’à 500 étapes et se termine à la résolution du jeu
contexte complet non tronqué: les historiques sont conservés pour tester les performances dans de longs contextes, rendu possible grâce au caching des prompts
deux métriques: Progrès du jeu et Harm (comportement éthique)
analyse des défis du long contexte: hallucinations, boucles et difficultés de navigation spatiale
Pensée dynamique: équilibre entre succès et coût d’inférence; les gains diminuent avec le budget de calcul après un certain point
focalisé sur les capacités intrinsèques comme colonne vertébrale du raisonnement, sans outils externes
open-source et esprit communautaire: invitation à soumettre au Leaderboard TextQuests ([email protected])
travaux connexes: Balrog, ARC-AGI et démonstrations de Claude/Gemini jouant Pokémon situent TextQuests dans ce champ

Caractéristique	Avantage
Fenêtre de contexte longue	Teste mémoire et planification sur des historiques étendus
Sans outils externes	Isole le raisonnement intrinsèque
Limite de 500 étapes	Rend les expériences gérables
Clues vs. No Clues	Mesure l’impact des indices externes sur la performance
Métrique Harm	Encourage un comportement éthique

Cas d’utilisation courants

Évaluer des agents LLM autonomes dans l’exploration à long terme où mémoire et planification comptent.
Évaluer comment les modèles maintiennent une carte mentale et évitent de répéter des erreurs sur des centaines d’actions.
Étudier l’impact des longs contextes sur la qualité des décisions, l’efficacité et les modes d’erreur dans des tâches interactives.
Fournir un cadre difficile pour comparer différentes familles de LLM et régimes d’ajustement des instructions dans des environnements exploratoires.

Configuration & installation

# Détails de configuration et d’installation non fournis dans la source.

Démarrage rapide

La source ne propose pas de code exécutable ni d’instructions concrètes; référez-vous aux références pour accéder au Leaderboard et au matériel.

Avantages et inconvénients

Avantages
Base de test riche pour le raisonnement sur long terme et la planification soutenue
Accent sur l’exploration autonome sans outils externes
Benchmark open-source avec protocole d’évaluation clair
Jeux textuels réalistes et ouverts qui sollicitent la mémoire et le raisonnement spatial
Inconvénients
Contextes très longs peuvent provoquer des hallucinations et des boucles, notamment dans les tâches spatiales
Demande une puissance de calcul importante pour gérer des contextes >100K tokens et des historiques longs
Limité à la fiction interactive basée sur le texte; la généralisation vers d’autres modalités nécessite validation

Alternatives

| Benchmark / Démonstration | Focus / Evidence dans l’article | Remarques |---|---|---| | Balrog | Mentionné comme travail connexe sur l’évaluation d’agents | Évaluation ouverte dans un cadre open-world |ARC-AGI | Mentionné comme benchmark connexe | Accent sur le raisonnement de type AGI en exploration |Démonstrations Pokémon (Claude, Gemini) | Démonstrations de LLM jouant à Pokémon | Tâches réelles dans un monde ouvert |

Prix ou Licence

Le texte décrit TextQuests comme open-source et appelle à des soumissions au Leaderboard, mais il ne précise ni licence ni tarification. Licence non spécifiée.

TextQuests : Évaluer les LLM dans des jeux d’aventure textuels

Aperçu

Caractéristiques clés

Cas d’utilisation courants

Configuration & installation

Démarrage rapide

Avantages et inconvénients

Alternatives

Prix ou Licence

Références

More resources

Réduire les coûts de déploiement des modèles tout en conservant les performances grâce au swap de mémoire GPU

Accélérez ZeroGPU Spaces avec la compilation ahead-of-time (AoT) de PyTorch

Fine-Tuning gpt-oss pour la précision et les performances avec l’entraînement par quantisation (QAT)

Comment les petits modèles linguistiques contribuent à une IA agentique évolutive

Comment faire évoluer vos agents LangGraph en production d’un seul utilisateur à 1 000 collègues

NVFP4 Entraîne avec une Précision de 16 Bits et une Vitesse et Efficacité de 4 Bits