Skip to content
TextQuests: Evaluar LLMs en Juegos de Aventura Basados en Texto
Source: huggingface.co

TextQuests: Evaluar LLMs en Juegos de Aventura Basados en Texto

Sources: https://huggingface.co/blog/textquests, Hugging Face Blog

Visión general

TextQuests es un benchmark creado a partir de 25 juegos clásicos de Infocom (ficción interactiva). Estos juegos basados en texto requieren cientos de acciones precisas en largas sesiones, ofreciendo un entorno desafiante para el razonamiento de agentes en entornos dinámicos. El objetivo es evaluar a los modelos de lenguaje grande (LLMs) como agentes autónomos en entornos exploratorios donde es crucial el razonamiento a largo plazo, la memoria y el aprendizaje autodirigido. A diferencia de los benchmarks estáticos de conocimiento, TextQuests exige que el agente confíe únicamente en sus capacidades intrínsecas, sin herramientas externas. Para cada modelo, se realizan dos ejecuciones de evaluación: With Clues (con pistas oficiales) y No Clues (sin pistas). Cada ejecución tiene un máximo de 500 pasos y termina si se resuelve el juego. Se mantiene todo el historial del juego sin truncación para evaluar la capacidad de razonamiento ante un contexto que crece, facilitado por el caché de prompts en los marcos de inferencia de LLM modernos. Se utilizan dos métricas centrales. Progreso del Juego rastrea el avance a lo largo de objetivos etiquetados para terminar el juego. Harm mide el comportamiento ético al registrar acciones en el juego que se consideran dañinas, y la puntuación se promedia entre los juegos. Un enfoque clave es el Razonamiento de Contexto Largo: los agentes deben planificar y actuar basándose en un historial extenso de observaciones e indicios, confiando solo en sus capacidades intrínsecas. A medida que el contexto crece (a menudo supera los 100K tokens), los modelos pueden alucinar sobre interacciones pasadas o repetir acciones. Esto se ve especialmente en tareas que requieren razonamiento espacial, como navegar en Wishbringer o en el Maze de Zork I. El pensamiento dinámico destaca el equilibrio entre el éxito de la tarea y la eficiencia operativa. El rendimiento tiende a mejorar con más compute de prueba, pero las ganancias tienden a estabilizarse después de un cierto umbral. TextQuests propone evaluar cuán consistentemente los modelos progresan a través de una larga secuencia de acciones, ofreciendo una visión directa del papel del LLM como columna vertebral del razonamiento de un sistema de agente autónomo. Los autores señalan el interés creciente en evaluar agentes en entornos abiertos y exploratorios y hacen referencia a trabajos relacionados como Balrog y ARC-AGI, así como a demostraciones de Claude y Gemini jugando Pokémon, para situar TextQuests en este paisaje en evolución. Concluyen presentando TextQuests como una herramienta de código abierto para ayudar a la comunidad a entender las capacidades de los agentes LLM en entornos exploratorios desafiantes e invitan a la participación en el Leaderboard abriendo un correo a [email protected].

Características clave

  • razonamiento a largo plazo sobre un historial creciente a partir de 25 juegos de Infocom, probando una planificación persistente
  • aprendizaje mediante exploración: los agentes deben mejorar por ensayo y error sin herramientas externas
  • dos ejecuciones de evaluación por modelo: With Clues y No Clues; cada una con hasta 500 pasos y se termina al resolver el juego
  • contexto completo sin truncación: los historiales se conservan para pruebas en contextos largos, habilitado por el caché de prompts
  • dos métricas: Progreso del Juego y Harm (comportamiento ético)
  • análisis de los desafíos del contexto largo: alucinaciones, bucles y dificultades de navegación espacial
  • Pensamiento dinámico: equilibrio entre éxito y coste de inferencia; los beneficios de más cálculo tienden a disminuir tras cierto punto
  • foco en capacidades intrínsecas como columna vertebral del razonamiento; sin herramientas externas
  • código abierto y orientado a la comunidad: invitación a enviar al Leaderboard TextQuests ([email protected])
  • trabajos relacionados: Balrog, ARC-AGI y demostraciones de Claude/Gemini jugando Pokémon sitúan TextQuests en este ecosistema
CaracterísticaBeneficio
Ventana de contexto largaPrueba memoria y planificación sobre históricos extensos
Sin herramientas externasAisla el razonamiento intrínseco
Límite de 500 pasosHace que los experimentos sean manejables
Clues vs. No CluesMide el impacto de las pistas externas en el rendimiento
Métrica HarmFomenta un comportamiento ético

Casos de uso comunes

  • Evaluar agentes LLM autónomos en exploración de largo plazo donde la memoria y la planificación importan.
  • Evaluar cómo los modelos mantienen un mapa mental y evitan repetir errores a lo largo de cientos de acciones.
  • Estudiar el impacto de contextos largos en la calidad de las decisiones, la eficiencia y los modos de error en tareas interactivas.
  • Proporcionar un marco desafiante para comparar diferentes familias de LLM y regímenes de ajuste de instrucciones en entornos exploratorios.

Configuración e instalación

# Detalles de configuración e instalación no se proporcionan en la fuente.

Inicio rápido

  • La fuente no incluye código ejecutable ni instrucciones concretas; consulte las referencias para acceder al Leaderboard y al material.

Ventajas y desventajas

  • Ventajas
  • Amplio banco de pruebas para razonamiento a largo plazo y planificación sostenida
  • Enfoque en exploración autónoma sin herramientas externas
  • Benchmark de código abierto con protocolo de evaluación claro
  • Juegos basados en texto realistas y abiertos que exigen memoria y razonamiento espacial
  • Desventajas
  • Contextos muy largos pueden provocar alucinaciones y bucles, especialmente en tareas espaciales
  • Requiere una gran capacidad computacional para manejar contextos de 100K+ tokens e historiales largos
  • Limitado a ficción interactiva basada en texto; la generalización a otras modalidades necesita validación

Alternativas

| Benchmark / Demostración | Enfoque / Evidencia en el artículo | Notas |---|---|---| | Balrog | Mencionado como trabajo relacionado para evaluar agentes autónomos | Evaluación abierta en mundo abierto |ARC-AGI | Mencionado como benchmark relacionado | Enfoque en razonamiento tipo AGI en exploración |Demostraciones Pokémon (Claude, Gemini) | Demostraciones de LLM jugando Pokémon | Tareas reales en un mundo abierto |

Precios o Licencia

  • El texto describe TextQuests como código abierto e invita a presentaciones al Leaderboard, pero no especifica una licencia o precio. Licencia no especificada.

Referencias

More resources