TextQuests : Évaluer les LLM dans des jeux d’aventure textuels
Sources: https://huggingface.co/blog/textquests, Hugging Face Blog
Aperçu
TextQuests est un benchmark construit sur 25 jeux classiques d’infocom (fiction interactive). Ces jeux basés sur du texte exigent des centaines d’actions précises au cours de sessions longues, offrant un terrain d’évaluation exigeant pour le raisonnement des agents dans des environnements dynamiques. Le benchmark vise à évaluer les LLMs en tant qu’agents autonomes dans des environnements exploratoires où un raisonnement sur le long terme, la mémoire et l’apprentissage autodirigé sont essentiels. Contrairement aux benchmarks statiques de connaissances, TextQuests demande à l’agent de s’appuyer uniquement sur ses capacités intrinsèques, sans outils externes. Pour chaque modèle, deux évaluations sont effectuées : With Clues (indices officiels) puis No Clues (aucun indice). Chaque évaluation est limitée à 500 étapes et se termine si le jeu est résolu. L’historique complet du jeu est conservé sans tronquation pour tester la capacité de raisonnement dans un contexte croissant, rendu faisable grâce au caching des prompts dans les cadres d’inférence LLM modernes. Deux métriques centrales sont utilisées. Progrès du jeu suit l’avancement le long d’objectifs étiquetés pour finir le jeu. Harm mesure l’aspect éthique en traçant les actions du jeu considérées comme nuisibles, et le score est moyenné sur tous les jeux. Un axe clé est le raisonnement en contexte long: les agents doivent planifier et agir à partir d’un historique étendu d’observations et d’indices, en s’appuyant uniquement sur leurs capacités intrinsèques. À mesure que le contexte se rallonge (souvent > 100K tokens), les modèles peuvent être sujets à des hallucinations sur des interactions passées ou à des répétitions d’actions. Ces défis sont particulièrement marqués dans des tâches nécessitant le raisonnement spatial (par exemple Wishbringer) et dans les labyrinthes comme le Maze du Zork I. La section Pensée dynamique met en évidence le compromis entre réussite de la tâche et coût d’inférence; des calculs plus importants pendant le test peuvent aider, mais les gains se réduisent après un certain budget. TextQuests vise à évaluer la capacité du modèle à progresser de manière cohérente dans une suite longue d’actions, fournissant une mesure directe du rôle du LLM en tant que colonne vertébrale du raisonnement d’un système d’agent autonome. Les auteurs soulignent l’intérêt croissant pour l’évaluation d’agents dans des environnements ouverts et exploratoires et font référence à des travaux connexes (Balrog, ARC-AGI) ainsi qu’à des démonstrations de Claude et Gemini jouant à Pokémon, pour situer TextQuests dans ce paysage en évolution. Ils concluent en proposant TextQuests en tant qu’outil open-source pour aider les chercheurs à évaluer les capacités des agents LLM dans des environnements exploratoires exigeants et invitent la communauté à participer via un Leaderboard open-source en envoyant un message à [email protected].
Caractéristiques clés
- raisonnement sur un horizon long avec un historique croissant à partir de 25 jeux Infocom, testant un planificateur persistant
- apprentissage par exploration: les agents doivent s’améliorer par essais et erreurs sans outils externes
- deux évaluations par modèle: With Clues et No Clues; chaque évaluation comprend jusqu’à 500 étapes et se termine à la résolution du jeu
- contexte complet non tronqué: les historiques sont conservés pour tester les performances dans de longs contextes, rendu possible grâce au caching des prompts
- deux métriques: Progrès du jeu et Harm (comportement éthique)
- analyse des défis du long contexte: hallucinations, boucles et difficultés de navigation spatiale
- Pensée dynamique: équilibre entre succès et coût d’inférence; les gains diminuent avec le budget de calcul après un certain point
- focalisé sur les capacités intrinsèques comme colonne vertébrale du raisonnement, sans outils externes
- open-source et esprit communautaire: invitation à soumettre au Leaderboard TextQuests ([email protected])
- travaux connexes: Balrog, ARC-AGI et démonstrations de Claude/Gemini jouant Pokémon situent TextQuests dans ce champ
| Caractéristique | Avantage |
|---|---|
| Fenêtre de contexte longue | Teste mémoire et planification sur des historiques étendus |
| Sans outils externes | Isole le raisonnement intrinsèque |
| Limite de 500 étapes | Rend les expériences gérables |
| Clues vs. No Clues | Mesure l’impact des indices externes sur la performance |
| Métrique Harm | Encourage un comportement éthique |
Cas d’utilisation courants
- Évaluer des agents LLM autonomes dans l’exploration à long terme où mémoire et planification comptent.
- Évaluer comment les modèles maintiennent une carte mentale et évitent de répéter des erreurs sur des centaines d’actions.
- Étudier l’impact des longs contextes sur la qualité des décisions, l’efficacité et les modes d’erreur dans des tâches interactives.
- Fournir un cadre difficile pour comparer différentes familles de LLM et régimes d’ajustement des instructions dans des environnements exploratoires.
Configuration & installation
# Détails de configuration et d’installation non fournis dans la source.
Démarrage rapide
- La source ne propose pas de code exécutable ni d’instructions concrètes; référez-vous aux références pour accéder au Leaderboard et au matériel.
Avantages et inconvénients
- Avantages
- Base de test riche pour le raisonnement sur long terme et la planification soutenue
- Accent sur l’exploration autonome sans outils externes
- Benchmark open-source avec protocole d’évaluation clair
- Jeux textuels réalistes et ouverts qui sollicitent la mémoire et le raisonnement spatial
- Inconvénients
- Contextes très longs peuvent provoquer des hallucinations et des boucles, notamment dans les tâches spatiales
- Demande une puissance de calcul importante pour gérer des contextes >100K tokens et des historiques longs
- Limité à la fiction interactive basée sur le texte; la généralisation vers d’autres modalités nécessite validation
Alternatives
| Benchmark / Démonstration | Focus / Evidence dans l’article | Remarques |---|---|---| | Balrog | Mentionné comme travail connexe sur l’évaluation d’agents | Évaluation ouverte dans un cadre open-world |ARC-AGI | Mentionné comme benchmark connexe | Accent sur le raisonnement de type AGI en exploration |Démonstrations Pokémon (Claude, Gemini) | Démonstrations de LLM jouant à Pokémon | Tâches réelles dans un monde ouvert |
Prix ou Licence
- Le texte décrit TextQuests comme open-source et appelle à des soumissions au Leaderboard, mais il ne précise ni licence ni tarification. Licence non spécifiée.
Références
More resources
Réduire les coûts de déploiement des modèles tout en conservant les performances grâce au swap de mémoire GPU
Exploitez le swap mémoire GPU (hot-swapping de modèles) pour partager les GPUs entre plusieurs LLM, réduire les coûts inoccupés et améliorer l’auto-Scaling tout en respectant les SLA.
Accélérez ZeroGPU Spaces avec la compilation ahead-of-time (AoT) de PyTorch
Découvrez comment la compilation AoT de PyTorch accélère ZeroGPU Spaces en exportant un modèle compilé et en le rechargeant instantanément, avec quantification FP8, formes dynamiques et intégration au flux Spaces GPU.
Fine-Tuning gpt-oss pour la précision et les performances avec l’entraînement par quantisation (QAT)
Guide du fine-tuning de gpt-oss utilisant SFT + QAT pour récupérer la précision FP4 tout en préservant l’efficacité, avec upcast vers BF16, MXFP4, NVFP4 et déploiement avec TensorRT-LLM.
Comment les petits modèles linguistiques contribuent à une IA agentique évolutive
Explique comment les petits modèles linguistiques permettent une IA agentique plus rentable et flexible, aux côtés des LLMs, via NVIDIA NeMo et Nemotron Nano 2.
Comment faire évoluer vos agents LangGraph en production d’un seul utilisateur à 1 000 collègues
Guide pour déployer et faire évoluer des agents LangGraph en production avec le NeMo Agent Toolkit, des tests de charge et une mise en œuvre par étapes pour des centaines à des milliers d’utilisateurs.
NVFP4 Entraîne avec une Précision de 16 Bits et une Vitesse et Efficacité de 4 Bits
NVFP4 est un format de données en 4 bits offrant une précision équivalente au FP16 avec la bande passante et l’efficacité mémoire du 4 bits, étendu au pré-entraînement pour les grands modèles de langage. Ce profil couvre des expériences en 12B, la stabilité et les collaborations industrielles.