TextQuests: Evaluar LLMs en Juegos de Aventura Basados en Texto

Visión general

TextQuests es un benchmark creado a partir de 25 juegos clásicos de Infocom (ficción interactiva). Estos juegos basados en texto requieren cientos de acciones precisas en largas sesiones, ofreciendo un entorno desafiante para el razonamiento de agentes en entornos dinámicos. El objetivo es evaluar a los modelos de lenguaje grande (LLMs) como agentes autónomos en entornos exploratorios donde es crucial el razonamiento a largo plazo, la memoria y el aprendizaje autodirigido. A diferencia de los benchmarks estáticos de conocimiento, TextQuests exige que el agente confíe únicamente en sus capacidades intrínsecas, sin herramientas externas. Para cada modelo, se realizan dos ejecuciones de evaluación: With Clues (con pistas oficiales) y No Clues (sin pistas). Cada ejecución tiene un máximo de 500 pasos y termina si se resuelve el juego. Se mantiene todo el historial del juego sin truncación para evaluar la capacidad de razonamiento ante un contexto que crece, facilitado por el caché de prompts en los marcos de inferencia de LLM modernos. Se utilizan dos métricas centrales. Progreso del Juego rastrea el avance a lo largo de objetivos etiquetados para terminar el juego. Harm mide el comportamiento ético al registrar acciones en el juego que se consideran dañinas, y la puntuación se promedia entre los juegos. Un enfoque clave es el Razonamiento de Contexto Largo: los agentes deben planificar y actuar basándose en un historial extenso de observaciones e indicios, confiando solo en sus capacidades intrínsecas. A medida que el contexto crece (a menudo supera los 100K tokens), los modelos pueden alucinar sobre interacciones pasadas o repetir acciones. Esto se ve especialmente en tareas que requieren razonamiento espacial, como navegar en Wishbringer o en el Maze de Zork I. El pensamiento dinámico destaca el equilibrio entre el éxito de la tarea y la eficiencia operativa. El rendimiento tiende a mejorar con más compute de prueba, pero las ganancias tienden a estabilizarse después de un cierto umbral. TextQuests propone evaluar cuán consistentemente los modelos progresan a través de una larga secuencia de acciones, ofreciendo una visión directa del papel del LLM como columna vertebral del razonamiento de un sistema de agente autónomo. Los autores señalan el interés creciente en evaluar agentes en entornos abiertos y exploratorios y hacen referencia a trabajos relacionados como Balrog y ARC-AGI, así como a demostraciones de Claude y Gemini jugando Pokémon, para situar TextQuests en este paisaje en evolución. Concluyen presentando TextQuests como una herramienta de código abierto para ayudar a la comunidad a entender las capacidades de los agentes LLM en entornos exploratorios desafiantes e invitan a la participación en el Leaderboard abriendo un correo a [email protected].

Características clave

razonamiento a largo plazo sobre un historial creciente a partir de 25 juegos de Infocom, probando una planificación persistente
aprendizaje mediante exploración: los agentes deben mejorar por ensayo y error sin herramientas externas
dos ejecuciones de evaluación por modelo: With Clues y No Clues; cada una con hasta 500 pasos y se termina al resolver el juego
contexto completo sin truncación: los historiales se conservan para pruebas en contextos largos, habilitado por el caché de prompts
dos métricas: Progreso del Juego y Harm (comportamiento ético)
análisis de los desafíos del contexto largo: alucinaciones, bucles y dificultades de navegación espacial
Pensamiento dinámico: equilibrio entre éxito y coste de inferencia; los beneficios de más cálculo tienden a disminuir tras cierto punto
foco en capacidades intrínsecas como columna vertebral del razonamiento; sin herramientas externas
código abierto y orientado a la comunidad: invitación a enviar al Leaderboard TextQuests ([email protected])
trabajos relacionados: Balrog, ARC-AGI y demostraciones de Claude/Gemini jugando Pokémon sitúan TextQuests en este ecosistema

Característica	Beneficio
Ventana de contexto larga	Prueba memoria y planificación sobre históricos extensos
Sin herramientas externas	Aisla el razonamiento intrínseco
Límite de 500 pasos	Hace que los experimentos sean manejables
Clues vs. No Clues	Mide el impacto de las pistas externas en el rendimiento
Métrica Harm	Fomenta un comportamiento ético

Casos de uso comunes

Evaluar agentes LLM autónomos en exploración de largo plazo donde la memoria y la planificación importan.
Evaluar cómo los modelos mantienen un mapa mental y evitan repetir errores a lo largo de cientos de acciones.
Estudiar el impacto de contextos largos en la calidad de las decisiones, la eficiencia y los modos de error en tareas interactivas.
Proporcionar un marco desafiante para comparar diferentes familias de LLM y regímenes de ajuste de instrucciones en entornos exploratorios.

Configuración e instalación

# Detalles de configuración e instalación no se proporcionan en la fuente.

Inicio rápido

La fuente no incluye código ejecutable ni instrucciones concretas; consulte las referencias para acceder al Leaderboard y al material.

Ventajas y desventajas

Ventajas
Amplio banco de pruebas para razonamiento a largo plazo y planificación sostenida
Enfoque en exploración autónoma sin herramientas externas
Benchmark de código abierto con protocolo de evaluación claro
Juegos basados en texto realistas y abiertos que exigen memoria y razonamiento espacial
Desventajas
Contextos muy largos pueden provocar alucinaciones y bucles, especialmente en tareas espaciales
Requiere una gran capacidad computacional para manejar contextos de 100K+ tokens e historiales largos
Limitado a ficción interactiva basada en texto; la generalización a otras modalidades necesita validación

Alternativas

| Benchmark / Demostración | Enfoque / Evidencia en el artículo | Notas |---|---|---| | Balrog | Mencionado como trabajo relacionado para evaluar agentes autónomos | Evaluación abierta en mundo abierto |ARC-AGI | Mencionado como benchmark relacionado | Enfoque en razonamiento tipo AGI en exploración |Demostraciones Pokémon (Claude, Gemini) | Demostraciones de LLM jugando Pokémon | Tareas reales en un mundo abierto |

Precios o Licencia

El texto describe TextQuests como código abierto e invita a presentaciones al Leaderboard, pero no especifica una licencia o precio. Licencia no especificada.

TextQuests: Evaluar LLMs en Juegos de Aventura Basados en Texto

Visión general

Características clave

Casos de uso comunes

Configuración e instalación

Inicio rápido

Ventajas y desventajas

Alternativas

Precios o Licencia

Referencias

More resources

Reducir costos de implementación de modelos manteniendo el rendimiento con intercambio de memoria de GPU

Haz ZeroGPU Spaces más rápido con la compilación ahead-of-time (AoT) de PyTorch

Ajuste fino de gpt-oss para Precisión y Rendimiento con Entrenamiento Consciente de Cuantización (QAT)

Cómo los modelos de lenguaje pequeños son la clave para una IA agentica escalable

Cómo Escalar tus Agentes LangGraph en Producción de un Solo Usuario a 1,000 Compañeros

NVFP4 Entrena con Precisión de 16 Bits y Velocidad y Eficiencia de 4 Bits