TextQuests: Avaliando LLMs em Jogos de Aventura Textuais

Visão geral

TextQuests é um benchmark desenvolvido a partir de 25 jogos clássicos da Infocom (ficção interativa). Esses jogos baseados em texto exigem centenas de ações precisas ao longo de sessões longas, oferecendo um ambiente desafiador para raciocínio de agentes em ambientes dinâmicos. O benchmark foca em avaliar LLMs como agentes autônomos em cenários exploratórios, onde planejamento de longo prazo, memória e aprendizado autodirigido são essenciais. Ao contrário de benchmarks estáticos de conhecimento, TextQuests requer que o agente relacione-se com o mundo apenas por meio de suas capacidades intrínsecas, sem ferramentas externas. Para cada modelo, são realizadas duas avaliações: With Clues (com dicas oficiais) e No Clues (sem dicas). Cada avaliação tem limite de 500 etapas e encerra-se se o jogo for concluído. O histórico completo do jogo é mantido sem truncamento para testar a capacidade de raciocínio sobre um contexto crescente, viabilizado pela cache de prompt em frameworks modernos de inferência de LLMs. Duas métricas centrais são usadas. Progresso do Jogo rastreia o avanço ao longo de objetivos etiquetados para terminar o jogo. Dano (Harm) mede o aspecto ético, acompanhando ações no jogo consideradas prejudiciais, com a pontuação média calculada sobre todos os jogos. Um foco-chave é o Raciocínio de Longo Contexto: os agentes devem planejar e executar com base em uma história extensa de observações e dicas, confiando apenas em capacidades intrínsecas. Conforme o contexto cresce (em geral > 100K tokens), modelos podem apresentar alucinações sobre interações passadas ou repetir ações. Isso é particularmente evidente em tarefas que exigem raciocínio espacial, como navegar em Wishbringer ou no Maze do Zork I, onde simples inversões de passos anteriores podem resolver o desafio de navegação. O artigo também discute o Pensamento Dinâmico, que equilibra sucesso na tarefa com eficiência operacional. Desempenho geralmente melhora com mais tempo de teste computacional, mas os ganhos tendem a diminuir após um certo orçamento. TextQuests enfatiza avaliar como os modelos mantêm consistência ao longo de uma longa sequência de ações, oferecendo uma visão direta do papel do LLM como alicerce de raciocínio de um sistema de agente autônomo. Os autores destacam o interesse crescente em avaliar agentes em ambientes abertos e exploratórios, citando trabalhos relacionados como Balrog, ARC-AGI e demonstrações de Claude e Gemini jogando Pokémon, para contextualizar o TextQuests nesse cenário em evolução. Eles encerram oferecendo o TextQuests como uma ferramenta de avaliação aberta para a comunidade e convidam a participação no Leaderboard por meio do e-mail [email protected].

Principais características

Raciocínio de longo alcance sobre um histórico crescente em 25 jogos de Infocom, testando planejamento persistente.
Aprendizado por exploração: agentes devem melhorar por meio de tentativa e erro, sem ferramentas externas.
Duas avaliações por modelo: With Clues e No Clues; cada uma com até 500 etapas, encerrando-se na solução do jogo.
Contexto completo sem truncamento: históricos preservados para testar desempenho em contextos extensos, viabilizado pela cache de prompts.
Duas métricas centrais: Progresso do Jogo (orientado a objetivos) e Dano (comportamento ético).
Análise de desafios de longo contexto: alucinações, ciclos repetitivos e dificuldades de navegação espacial.
Pensamento Dinâmico: trade-off entre sucesso da tarefa e custo de inferência; ganhos com mais computação tendem a se estabilizar.
Foco em capacidades intrínsecas como alicerce de raciocínio; sem dependência de ferramentas externas.
Open-source e orientado pela comunidade: convite para submissões no TextQuests Leaderboard ([email protected]).
Trabalhos relacionados: Balrog, ARC-AGI e demonstrações de Claude/Gemini jogando Pokémon situam o TextQuests nesse ecossistema.

Recurso	Benefício
Janela de contexto longa	Testa memória e planejamento ao longo de históricos extensos
Sem ferramentas externas	Isola o raciocínio intrínseco
Limite de 500 passos	Mantém as experimentações gerenciáveis
Clues vs. No Clues	Mede o impacto de dicas externas no desempenho
Métrica Harm	Incentiva comportamento ético

Casos de uso comuns

Avaliar agentes LLM autônomos em exploração de longo prazo, onde memória e planejamento são cruciais.
Avaliar como modelos mantêm um mapa mental e evitam repetir erros ao longo de centenas de ações.
Estudar o impacto de contextos longos na qualidade de decisão, eficiência e modos de erro em tarefas interativas.
Fornecer um conjunto de testes desafiador para comparar diferentes famílias de LLMs e regimes de ajuste de instruções.

Configuração e instalação

# Detalhes de configuração e instalação não são fornecidos na fonte.

Início rápido

A fonte não inclui código executável ou instruções de execução; consulte as referências para acesso ao Leaderboard e materiais.

Prós e contras

Prós
Ambiente de teste rico para raciocínio de longo prazo e planejamento sustentado.
Ênfase em exploração autônoma, sem ferramentas externas.
Benchmark open-source com protocolo de avaliação claro.
Jogos baseados em texto e abertos que exigem memória e raciocínio espacial.
Contras
Contextos muito longos podem causar alucinações e loops, principalmente em tarefas espaciais.
Requer grande capacidade computacional para gerenciar contextos de 100K+ tokens e históricos longos.
Limitado a ficção interativa baseada em texto; a generalização para outras modalidades/domínios precisa de validação.

Alternativas

| Benchmark / Demonstração | Foco / Evidência no artigo | Observações |---|---|---| | Balrog | Mencionado como trabalho relacionado para avaliação de agentes autônomos | Avaliação aberta em mundo aberto / domínio amplo |ARC-AGI | Mencionado como benchmark relacionado | Ênfase em raciocínio no estilo AGI em exploração |Demonstrações Pokémon (Claude, Gemini) | Demonstrações de LLM jogando Pokémon | Tarefas descritas como uso em mundo aberto com jogos |

Preços ou Licença

O texto descreve TextQuests como open-source e convida submissões ao Leaderboard, mas não especifica licença ou preço. Licença não especificada.

TextQuests: Avaliando LLMs em Jogos de Aventura Textuais

Visão geral

Principais características

Casos de uso comuns

Configuração e instalação

Início rápido

Prós e contras

Alternativas

Preços ou Licença

Referências

More resources

Reduzir Custos de Implantação de Modelos Mantendo Desempenho com Swap de Memória de GPU

Deixe os ZeroGPU Spaces mais rápidos com compilação ahead-of-time (AoT) do PyTorch

Fine-Tuning gpt-oss para Precisão e Desempenho com Treinamento de Quantização (QAT)

Como Modelos de Linguagem Pequenos são a Chave para IA Agentica Escalável

Como Escalar seus Agentes LangGraph em Produção de um Único Usuário para 1.000 Colegas

NVFP4 Treina com Precisão de 16 Bits e Velocidade e Eficiência de 4 Bits