TextQuests: Evaluar LLMs en Juegos de Aventura Basados en Texto
Sources: https://huggingface.co/blog/textquests, Hugging Face Blog
Visión general
TextQuests es un benchmark creado a partir de 25 juegos clásicos de Infocom (ficción interactiva). Estos juegos basados en texto requieren cientos de acciones precisas en largas sesiones, ofreciendo un entorno desafiante para el razonamiento de agentes en entornos dinámicos. El objetivo es evaluar a los modelos de lenguaje grande (LLMs) como agentes autónomos en entornos exploratorios donde es crucial el razonamiento a largo plazo, la memoria y el aprendizaje autodirigido. A diferencia de los benchmarks estáticos de conocimiento, TextQuests exige que el agente confíe únicamente en sus capacidades intrínsecas, sin herramientas externas. Para cada modelo, se realizan dos ejecuciones de evaluación: With Clues (con pistas oficiales) y No Clues (sin pistas). Cada ejecución tiene un máximo de 500 pasos y termina si se resuelve el juego. Se mantiene todo el historial del juego sin truncación para evaluar la capacidad de razonamiento ante un contexto que crece, facilitado por el caché de prompts en los marcos de inferencia de LLM modernos. Se utilizan dos métricas centrales. Progreso del Juego rastrea el avance a lo largo de objetivos etiquetados para terminar el juego. Harm mide el comportamiento ético al registrar acciones en el juego que se consideran dañinas, y la puntuación se promedia entre los juegos. Un enfoque clave es el Razonamiento de Contexto Largo: los agentes deben planificar y actuar basándose en un historial extenso de observaciones e indicios, confiando solo en sus capacidades intrínsecas. A medida que el contexto crece (a menudo supera los 100K tokens), los modelos pueden alucinar sobre interacciones pasadas o repetir acciones. Esto se ve especialmente en tareas que requieren razonamiento espacial, como navegar en Wishbringer o en el Maze de Zork I. El pensamiento dinámico destaca el equilibrio entre el éxito de la tarea y la eficiencia operativa. El rendimiento tiende a mejorar con más compute de prueba, pero las ganancias tienden a estabilizarse después de un cierto umbral. TextQuests propone evaluar cuán consistentemente los modelos progresan a través de una larga secuencia de acciones, ofreciendo una visión directa del papel del LLM como columna vertebral del razonamiento de un sistema de agente autónomo. Los autores señalan el interés creciente en evaluar agentes en entornos abiertos y exploratorios y hacen referencia a trabajos relacionados como Balrog y ARC-AGI, así como a demostraciones de Claude y Gemini jugando Pokémon, para situar TextQuests en este paisaje en evolución. Concluyen presentando TextQuests como una herramienta de código abierto para ayudar a la comunidad a entender las capacidades de los agentes LLM en entornos exploratorios desafiantes e invitan a la participación en el Leaderboard abriendo un correo a [email protected].
Características clave
- razonamiento a largo plazo sobre un historial creciente a partir de 25 juegos de Infocom, probando una planificación persistente
- aprendizaje mediante exploración: los agentes deben mejorar por ensayo y error sin herramientas externas
- dos ejecuciones de evaluación por modelo: With Clues y No Clues; cada una con hasta 500 pasos y se termina al resolver el juego
- contexto completo sin truncación: los historiales se conservan para pruebas en contextos largos, habilitado por el caché de prompts
- dos métricas: Progreso del Juego y Harm (comportamiento ético)
- análisis de los desafíos del contexto largo: alucinaciones, bucles y dificultades de navegación espacial
- Pensamiento dinámico: equilibrio entre éxito y coste de inferencia; los beneficios de más cálculo tienden a disminuir tras cierto punto
- foco en capacidades intrínsecas como columna vertebral del razonamiento; sin herramientas externas
- código abierto y orientado a la comunidad: invitación a enviar al Leaderboard TextQuests ([email protected])
- trabajos relacionados: Balrog, ARC-AGI y demostraciones de Claude/Gemini jugando Pokémon sitúan TextQuests en este ecosistema
| Característica | Beneficio |
|---|---|
| Ventana de contexto larga | Prueba memoria y planificación sobre históricos extensos |
| Sin herramientas externas | Aisla el razonamiento intrínseco |
| Límite de 500 pasos | Hace que los experimentos sean manejables |
| Clues vs. No Clues | Mide el impacto de las pistas externas en el rendimiento |
| Métrica Harm | Fomenta un comportamiento ético |
Casos de uso comunes
- Evaluar agentes LLM autónomos en exploración de largo plazo donde la memoria y la planificación importan.
- Evaluar cómo los modelos mantienen un mapa mental y evitan repetir errores a lo largo de cientos de acciones.
- Estudiar el impacto de contextos largos en la calidad de las decisiones, la eficiencia y los modos de error en tareas interactivas.
- Proporcionar un marco desafiante para comparar diferentes familias de LLM y regímenes de ajuste de instrucciones en entornos exploratorios.
Configuración e instalación
# Detalles de configuración e instalación no se proporcionan en la fuente.
Inicio rápido
- La fuente no incluye código ejecutable ni instrucciones concretas; consulte las referencias para acceder al Leaderboard y al material.
Ventajas y desventajas
- Ventajas
- Amplio banco de pruebas para razonamiento a largo plazo y planificación sostenida
- Enfoque en exploración autónoma sin herramientas externas
- Benchmark de código abierto con protocolo de evaluación claro
- Juegos basados en texto realistas y abiertos que exigen memoria y razonamiento espacial
- Desventajas
- Contextos muy largos pueden provocar alucinaciones y bucles, especialmente en tareas espaciales
- Requiere una gran capacidad computacional para manejar contextos de 100K+ tokens e historiales largos
- Limitado a ficción interactiva basada en texto; la generalización a otras modalidades necesita validación
Alternativas
| Benchmark / Demostración | Enfoque / Evidencia en el artículo | Notas |---|---|---| | Balrog | Mencionado como trabajo relacionado para evaluar agentes autónomos | Evaluación abierta en mundo abierto |ARC-AGI | Mencionado como benchmark relacionado | Enfoque en razonamiento tipo AGI en exploración |Demostraciones Pokémon (Claude, Gemini) | Demostraciones de LLM jugando Pokémon | Tareas reales en un mundo abierto |
Precios o Licencia
- El texto describe TextQuests como código abierto e invita a presentaciones al Leaderboard, pero no especifica una licencia o precio. Licencia no especificada.
Referencias
More resources
Reducir costos de implementación de modelos manteniendo el rendimiento con intercambio de memoria de GPU
Utiliza el intercambio de memoria de GPU (hot-swapping de modelos) para compartir GPUs entre varios LLM, reducir costos de GPU ociosas y mejorar el autoescalado manteniendo los SLA.
Haz ZeroGPU Spaces más rápido con la compilación ahead-of-time (AoT) de PyTorch
Descubre cómo la compilación AoT de PyTorch acelera ZeroGPU Spaces exportando un modelo compilado y recargándolo al instante, con cuantización FP8, formas dinámicas e integración con Spaces GPU.
Ajuste fino de gpt-oss para Precisión y Rendimiento con Entrenamiento Consciente de Cuantización (QAT)
Guía de afinado fino de gpt-oss usando SFT + QAT para recuperar precisión FP4 manteniendo la eficiencia, con upcasting a BF16, MXFP4, NVFP4 y despliegue con TensorRT-LLM.
Cómo los modelos de lenguaje pequeños son la clave para una IA agentica escalable
Explica cómo los modelos de lenguaje pequeños permiten IA agentica más rentable y flexible junto a LLMs, mediante NVIDIA NeMo y Nemotron Nano 2.
Cómo Escalar tus Agentes LangGraph en Producción de un Solo Usuario a 1,000 Compañeros
Guía para desplegar y escalar agentes LangGraph en producción usando NeMo Agent Toolkit, pruebas de carga y despliegue por fases para cientos a miles de usuarios.
NVFP4 Entrena con Precisión de 16 Bits y Velocidad y Eficiencia de 4 Bits
NVFP4 es un formato de datos de 4 bits que ofrece precisión similar a FP16 con el rendimiento y la eficiencia de memoria de 4 bits, extendido al preentrenamiento de grandes modelos de lenguaje. Este perfil aborda experimentos a nivel 12B, estabilidad y colaboraciones industriales.