Skip to content
TextQuests: Avaliando LLMs em Jogos Clássicos de Ficção Interativa
Source: huggingface.co

TextQuests: Avaliando LLMs em Jogos Clássicos de Ficção Interativa

Sources: https://huggingface.co/blog/textquests

TL;DR

  • TextQuests é um benchmark baseado em 25 jogos clássicos da Infocom para avaliar LLMs como agentes autônomos em ambientes exploratórios de longa duração.
  • Cada modelo é avaliado em duas execuções (Com Pistas e Sem Pistas), até 500 passos, com o histórico completo do jogo preservado; as métricas incluem Progresso no Jogo e Dano.
  • Avaliações de longo contexto (acima de 100K tokens) revelam alucinações, repetição de ações e dificuldades de raciocínio espacial em modelos atuais.

Contexto e histórico

Os avanços recentes em modelos de grande porte produziram resultados fortes em benchmarks de conhecimento estático, como MMLU e GPQA, e progresso em avaliações especializadas como HLE. Porém, sucesso em tarefas estáticas não garante desempenho em ambientes interativos dinâmicos, onde agentes precisam planejar, agir e aprender ao longo de sessões prolongadas. Para avaliar agentes autônomos, há duas abordagens principais: ambientes do mundo real (ou com ferramentas) que testam habilidades específicas, ou ambientes simulados de mundo aberto que exigem raciocínio autônomo sustentado. A segunda abordagem captura melhor a capacidade de operar de forma exploratória e é mais fácil de avaliar de maneira reprodutível. Trabalhos recentes nessa direção incluem Balrog, ARC-AGI e demonstrações de modelos como Claude e Gemini jogando Pokémon. Com base nisso, o Hugging Face publicou o TextQuests como um testbed para avaliar o raciocínio central dos agentes baseados em LLMs. Fonte: TextQuests.

O que há de novo

TextQuests usa 25 jogos clássicos da Infocom — jogos de ficção interativa que podem levar jogadores humanos a gastar mais de 30 horas e centenas de ações precisas para serem solucionados. Esses jogos exigem:

  • Raciocínio de longo contexto: manutenção e uso de um histórico crescente de ações e observações.
  • Aprendizado por exploração: melhoria via tentativa e erro, interpretando falhas e ajustando planos incrementalmente. Cada modelo recebe duas execuções: uma com as pistas oficiais do jogo (“Com Pistas”) e outra sem pistas (“Sem Pistas”). Cada execução tem limite de 500 passos e termina mais cedo se o agente completar o jogo. O histórico completo do jogo é mantido sem truncamento; otimizações modernas de inferência, como cache de prompt, tornam essa avaliação de longo contexto viável.

Por que isso importa (impacto para desenvolvedores/empresas)

TextQuests explora capacidades relevantes para sistemas agentes do mundo real: planejar ao longo de sequências extensas, adaptar-se aprendendo com a experiência e operar com eficiência no teste.

  • Para desenvolvedores de assistentes autônomos, o benchmark revela áreas onde os modelos precisam melhorar para suportar fluxos de trabalho exploratórios e multi-etapa.
  • Para empresas avaliando LLMs para casos de uso agente, TextQuests destaca o trade-off entre desempenho e custo de inferência: mais compute no teste tende a elevar a performance até certo ponto.
  • Para equipes de segurança e alinhamento, a métrica de Dano fornece um sinal para comportamentos potencialmente perigosos, integrável em pipelines de avaliação.

Detalhes técnicos ou de implementação

Design da avaliação e métricas principais:

AspectoEspecificação
Jogos25 títulos clássicos da Infocom
Execuções por modeloDuas: Com Pistas e Sem Pistas
Máx. de passos500 passos por execução (pára se o jogo for completado)
Política de históricoHistórico completo do jogo mantido sem truncamento
Escala de contextoJanelas de contexto podem exceder 100K tokens
MétricasProgresso no Jogo; Dano
O Progresso no Jogo é calculado a partir de checkpoints rotulados que representam objetivos necessários para completar o jogo. Dano é medido rastreando ações em jogo classificadas como nocivas e, em seguida, fazendo uma média desse score através dos jogos para produzir um sinal nível-modelo.
A avaliação de longo contexto é prática graças ao uso de cache de prompt e otimizações de inferência, evitando custos proibitivos ao manter um histórico cumulativo. O benchmark não fornece ferramentas externas durante as execuções — o objetivo é avaliar o LLM por si só como núcleo de raciocínio.
Modos de falha observados:
  • Alucinação sobre interações anteriores: agentes às vezes acreditam ter pegado itens que não pegaram.
  • Viés de repetição: com o crescimento do contexto, agentes repetem ações anteriores em vez de criar novos planos.
  • Quebras de raciocínio espacial: por exemplo, dificuldades em reverter uma escalada em Wishbringer e problemas com o labirinto em Zork I.
  • Trade-off eficiência-desempenho: mais tokens de raciocínio no tempo de teste tendem a melhorar resultados, mas muitas ações exploratórias não exigem raciocínio profundo.

Principais conclusões

  • TextQuests oferece um benchmark reprodutível e aberto para testar LLMs em tarefas exploratórias de longo horizonte usando 25 jogos Infocom.
  • Avaliação com histórico completo evidencia alucinações, repetição e falhas de raciocínio espacial nos modelos atuais.
  • Desempenho melhora com mais compute no teste até um ponto, tornando a eficiência uma consideração prática.
  • O benchmark inclui uma métrica de Dano para sinalizar comportamentos potencialmente nocivos.
  • Construtores de modelos open-source podem submeter-se ao TextQuests Leaderboard através do e-mail [email protected].

FAQ

  • Que tipos de jogos compõem o TextQuests?

    São 25 jogos clássicos de ficção interativa da Infocom, aventuras textuais historicamente longas e detalhadas.

  • Como são feitas as avaliações?

    Cada modelo tem duas execuções (Com Pistas e Sem Pistas), cada uma com limite de 500 passos e com histórico completo preservado.

  • Quais métricas o benchmark usa?

    Progresso no Jogo (checkpoints rotulados) e Dano (média de ações classificadas como nocivas).

  • Por que o contexto longo é importante?

    Os jogos exigem planejamento multi-etapa e aprendizado através da experiência; janelas de contexto podem exceder 100K tokens.

  • Como participar ou submeter modelos?

    Construtores de modelos open-source são convidados a enviar modelos ao leaderboard por e-mail para [email protected].

Referências

More news