Skip to content
TextQuests: Avaliando LLMs em Jogos de Aventura Textuais
Source: huggingface.co

TextQuests: Avaliando LLMs em Jogos de Aventura Textuais

Sources: https://huggingface.co/blog/textquests, Hugging Face Blog

Visão geral

TextQuests é um benchmark desenvolvido a partir de 25 jogos clássicos da Infocom (ficção interativa). Esses jogos baseados em texto exigem centenas de ações precisas ao longo de sessões longas, oferecendo um ambiente desafiador para raciocínio de agentes em ambientes dinâmicos. O benchmark foca em avaliar LLMs como agentes autônomos em cenários exploratórios, onde planejamento de longo prazo, memória e aprendizado autodirigido são essenciais. Ao contrário de benchmarks estáticos de conhecimento, TextQuests requer que o agente relacione-se com o mundo apenas por meio de suas capacidades intrínsecas, sem ferramentas externas. Para cada modelo, são realizadas duas avaliações: With Clues (com dicas oficiais) e No Clues (sem dicas). Cada avaliação tem limite de 500 etapas e encerra-se se o jogo for concluído. O histórico completo do jogo é mantido sem truncamento para testar a capacidade de raciocínio sobre um contexto crescente, viabilizado pela cache de prompt em frameworks modernos de inferência de LLMs. Duas métricas centrais são usadas. Progresso do Jogo rastreia o avanço ao longo de objetivos etiquetados para terminar o jogo. Dano (Harm) mede o aspecto ético, acompanhando ações no jogo consideradas prejudiciais, com a pontuação média calculada sobre todos os jogos. Um foco-chave é o Raciocínio de Longo Contexto: os agentes devem planejar e executar com base em uma história extensa de observações e dicas, confiando apenas em capacidades intrínsecas. Conforme o contexto cresce (em geral > 100K tokens), modelos podem apresentar alucinações sobre interações passadas ou repetir ações. Isso é particularmente evidente em tarefas que exigem raciocínio espacial, como navegar em Wishbringer ou no Maze do Zork I, onde simples inversões de passos anteriores podem resolver o desafio de navegação. O artigo também discute o Pensamento Dinâmico, que equilibra sucesso na tarefa com eficiência operacional. Desempenho geralmente melhora com mais tempo de teste computacional, mas os ganhos tendem a diminuir após um certo orçamento. TextQuests enfatiza avaliar como os modelos mantêm consistência ao longo de uma longa sequência de ações, oferecendo uma visão direta do papel do LLM como alicerce de raciocínio de um sistema de agente autônomo. Os autores destacam o interesse crescente em avaliar agentes em ambientes abertos e exploratórios, citando trabalhos relacionados como Balrog, ARC-AGI e demonstrações de Claude e Gemini jogando Pokémon, para contextualizar o TextQuests nesse cenário em evolução. Eles encerram oferecendo o TextQuests como uma ferramenta de avaliação aberta para a comunidade e convidam a participação no Leaderboard por meio do e-mail [email protected].

Principais características

  • Raciocínio de longo alcance sobre um histórico crescente em 25 jogos de Infocom, testando planejamento persistente.
  • Aprendizado por exploração: agentes devem melhorar por meio de tentativa e erro, sem ferramentas externas.
  • Duas avaliações por modelo: With Clues e No Clues; cada uma com até 500 etapas, encerrando-se na solução do jogo.
  • Contexto completo sem truncamento: históricos preservados para testar desempenho em contextos extensos, viabilizado pela cache de prompts.
  • Duas métricas centrais: Progresso do Jogo (orientado a objetivos) e Dano (comportamento ético).
  • Análise de desafios de longo contexto: alucinações, ciclos repetitivos e dificuldades de navegação espacial.
  • Pensamento Dinâmico: trade-off entre sucesso da tarefa e custo de inferência; ganhos com mais computação tendem a se estabilizar.
  • Foco em capacidades intrínsecas como alicerce de raciocínio; sem dependência de ferramentas externas.
  • Open-source e orientado pela comunidade: convite para submissões no TextQuests Leaderboard ([email protected]).
  • Trabalhos relacionados: Balrog, ARC-AGI e demonstrações de Claude/Gemini jogando Pokémon situam o TextQuests nesse ecossistema.
RecursoBenefício
Janela de contexto longaTesta memória e planejamento ao longo de históricos extensos
Sem ferramentas externasIsola o raciocínio intrínseco
Limite de 500 passosMantém as experimentações gerenciáveis
Clues vs. No CluesMede o impacto de dicas externas no desempenho
Métrica HarmIncentiva comportamento ético

Casos de uso comuns

  • Avaliar agentes LLM autônomos em exploração de longo prazo, onde memória e planejamento são cruciais.
  • Avaliar como modelos mantêm um mapa mental e evitam repetir erros ao longo de centenas de ações.
  • Estudar o impacto de contextos longos na qualidade de decisão, eficiência e modos de erro em tarefas interativas.
  • Fornecer um conjunto de testes desafiador para comparar diferentes famílias de LLMs e regimes de ajuste de instruções.

Configuração e instalação

# Detalhes de configuração e instalação não são fornecidos na fonte.

Início rápido

  • A fonte não inclui código executável ou instruções de execução; consulte as referências para acesso ao Leaderboard e materiais.

Prós e contras

  • Prós
  • Ambiente de teste rico para raciocínio de longo prazo e planejamento sustentado.
  • Ênfase em exploração autônoma, sem ferramentas externas.
  • Benchmark open-source com protocolo de avaliação claro.
  • Jogos baseados em texto e abertos que exigem memória e raciocínio espacial.
  • Contras
  • Contextos muito longos podem causar alucinações e loops, principalmente em tarefas espaciais.
  • Requer grande capacidade computacional para gerenciar contextos de 100K+ tokens e históricos longos.
  • Limitado a ficção interativa baseada em texto; a generalização para outras modalidades/domínios precisa de validação.

Alternativas

| Benchmark / Demonstração | Foco / Evidência no artigo | Observações |---|---|---| | Balrog | Mencionado como trabalho relacionado para avaliação de agentes autônomos | Avaliação aberta em mundo aberto / domínio amplo |ARC-AGI | Mencionado como benchmark relacionado | Ênfase em raciocínio no estilo AGI em exploração |Demonstrações Pokémon (Claude, Gemini) | Demonstrações de LLM jogando Pokémon | Tarefas descritas como uso em mundo aberto com jogos |

Preços ou Licença

  • O texto descreve TextQuests como open-source e convida submissões ao Leaderboard, mas não especifica licença ou preço. Licença não especificada.

Referências

More resources