TextQuests: Avaliando LLMs em Jogos de Aventura Textuais
Sources: https://huggingface.co/blog/textquests, Hugging Face Blog
Visão geral
TextQuests é um benchmark desenvolvido a partir de 25 jogos clássicos da Infocom (ficção interativa). Esses jogos baseados em texto exigem centenas de ações precisas ao longo de sessões longas, oferecendo um ambiente desafiador para raciocínio de agentes em ambientes dinâmicos. O benchmark foca em avaliar LLMs como agentes autônomos em cenários exploratórios, onde planejamento de longo prazo, memória e aprendizado autodirigido são essenciais. Ao contrário de benchmarks estáticos de conhecimento, TextQuests requer que o agente relacione-se com o mundo apenas por meio de suas capacidades intrínsecas, sem ferramentas externas. Para cada modelo, são realizadas duas avaliações: With Clues (com dicas oficiais) e No Clues (sem dicas). Cada avaliação tem limite de 500 etapas e encerra-se se o jogo for concluído. O histórico completo do jogo é mantido sem truncamento para testar a capacidade de raciocínio sobre um contexto crescente, viabilizado pela cache de prompt em frameworks modernos de inferência de LLMs. Duas métricas centrais são usadas. Progresso do Jogo rastreia o avanço ao longo de objetivos etiquetados para terminar o jogo. Dano (Harm) mede o aspecto ético, acompanhando ações no jogo consideradas prejudiciais, com a pontuação média calculada sobre todos os jogos. Um foco-chave é o Raciocínio de Longo Contexto: os agentes devem planejar e executar com base em uma história extensa de observações e dicas, confiando apenas em capacidades intrínsecas. Conforme o contexto cresce (em geral > 100K tokens), modelos podem apresentar alucinações sobre interações passadas ou repetir ações. Isso é particularmente evidente em tarefas que exigem raciocínio espacial, como navegar em Wishbringer ou no Maze do Zork I, onde simples inversões de passos anteriores podem resolver o desafio de navegação. O artigo também discute o Pensamento Dinâmico, que equilibra sucesso na tarefa com eficiência operacional. Desempenho geralmente melhora com mais tempo de teste computacional, mas os ganhos tendem a diminuir após um certo orçamento. TextQuests enfatiza avaliar como os modelos mantêm consistência ao longo de uma longa sequência de ações, oferecendo uma visão direta do papel do LLM como alicerce de raciocínio de um sistema de agente autônomo. Os autores destacam o interesse crescente em avaliar agentes em ambientes abertos e exploratórios, citando trabalhos relacionados como Balrog, ARC-AGI e demonstrações de Claude e Gemini jogando Pokémon, para contextualizar o TextQuests nesse cenário em evolução. Eles encerram oferecendo o TextQuests como uma ferramenta de avaliação aberta para a comunidade e convidam a participação no Leaderboard por meio do e-mail [email protected].
Principais características
- Raciocínio de longo alcance sobre um histórico crescente em 25 jogos de Infocom, testando planejamento persistente.
- Aprendizado por exploração: agentes devem melhorar por meio de tentativa e erro, sem ferramentas externas.
- Duas avaliações por modelo: With Clues e No Clues; cada uma com até 500 etapas, encerrando-se na solução do jogo.
- Contexto completo sem truncamento: históricos preservados para testar desempenho em contextos extensos, viabilizado pela cache de prompts.
- Duas métricas centrais: Progresso do Jogo (orientado a objetivos) e Dano (comportamento ético).
- Análise de desafios de longo contexto: alucinações, ciclos repetitivos e dificuldades de navegação espacial.
- Pensamento Dinâmico: trade-off entre sucesso da tarefa e custo de inferência; ganhos com mais computação tendem a se estabilizar.
- Foco em capacidades intrínsecas como alicerce de raciocínio; sem dependência de ferramentas externas.
- Open-source e orientado pela comunidade: convite para submissões no TextQuests Leaderboard ([email protected]).
- Trabalhos relacionados: Balrog, ARC-AGI e demonstrações de Claude/Gemini jogando Pokémon situam o TextQuests nesse ecossistema.
| Recurso | Benefício |
|---|---|
| Janela de contexto longa | Testa memória e planejamento ao longo de históricos extensos |
| Sem ferramentas externas | Isola o raciocínio intrínseco |
| Limite de 500 passos | Mantém as experimentações gerenciáveis |
| Clues vs. No Clues | Mede o impacto de dicas externas no desempenho |
| Métrica Harm | Incentiva comportamento ético |
Casos de uso comuns
- Avaliar agentes LLM autônomos em exploração de longo prazo, onde memória e planejamento são cruciais.
- Avaliar como modelos mantêm um mapa mental e evitam repetir erros ao longo de centenas de ações.
- Estudar o impacto de contextos longos na qualidade de decisão, eficiência e modos de erro em tarefas interativas.
- Fornecer um conjunto de testes desafiador para comparar diferentes famílias de LLMs e regimes de ajuste de instruções.
Configuração e instalação
# Detalhes de configuração e instalação não são fornecidos na fonte.
Início rápido
- A fonte não inclui código executável ou instruções de execução; consulte as referências para acesso ao Leaderboard e materiais.
Prós e contras
- Prós
- Ambiente de teste rico para raciocínio de longo prazo e planejamento sustentado.
- Ênfase em exploração autônoma, sem ferramentas externas.
- Benchmark open-source com protocolo de avaliação claro.
- Jogos baseados em texto e abertos que exigem memória e raciocínio espacial.
- Contras
- Contextos muito longos podem causar alucinações e loops, principalmente em tarefas espaciais.
- Requer grande capacidade computacional para gerenciar contextos de 100K+ tokens e históricos longos.
- Limitado a ficção interativa baseada em texto; a generalização para outras modalidades/domínios precisa de validação.
Alternativas
| Benchmark / Demonstração | Foco / Evidência no artigo | Observações |---|---|---| | Balrog | Mencionado como trabalho relacionado para avaliação de agentes autônomos | Avaliação aberta em mundo aberto / domínio amplo |ARC-AGI | Mencionado como benchmark relacionado | Ênfase em raciocínio no estilo AGI em exploração |Demonstrações Pokémon (Claude, Gemini) | Demonstrações de LLM jogando Pokémon | Tarefas descritas como uso em mundo aberto com jogos |
Preços ou Licença
- O texto descreve TextQuests como open-source e convida submissões ao Leaderboard, mas não especifica licença ou preço. Licença não especificada.
Referências
More resources
Reduzir Custos de Implantação de Modelos Mantendo Desempenho com Swap de Memória de GPU
Utilize o swap de memória da GPU (hot-swapping de modelos) para compartilhar GPUs entre múltiplos LLMs, reduzir custos de ociosidade e melhorar o autoscaling mantendo os SLAs.
Deixe os ZeroGPU Spaces mais rápidos com compilação ahead-of-time (AoT) do PyTorch
Descubra como a AoT do PyTorch acelera ZeroGPU Spaces exportando um modelo compilado e recarregando-o instantaneamente, com quantização FP8, formas dinâmicas e integração cuidadosa com o fluxo Spaces GPU.
Fine-Tuning gpt-oss para Precisão e Desempenho com Treinamento de Quantização (QAT)
Guia de fine-tuning do gpt-oss com SFT + QAT para recuperar a precisão em FP4 mantendo a eficiência, incluindo upcasting para BF16, MXFP4, NVFP4 e implantação com TensorRT-LLM.
Como Modelos de Linguagem Pequenos são a Chave para IA Agentica Escalável
Explora como modelos de linguagem pequenos permitem IA agentica mais barata, flexível e escalável, ao lado de LLMs, com NVIDIA NeMo e Nemotron Nano 2.
Como Escalar seus Agentes LangGraph em Produção de um Único Usuário para 1.000 Colegas
Guia para implantar e escalar agentes baseados em LangGraph em produção usando o NeMo Agent Toolkit, testes de carga e rollout por fases para centenas a milhares de usuários.
NVFP4 Treina com Precisão de 16 Bits e Velocidade e Eficiência de 4 Bits
NVFP4 é um formato de dados de 4 bits que oferece precisão equivalente a FP16 com a vazão e eficiência de memória de 4 bits, estendido ao pré-treinamento de modelos de linguagem grandes. Este perfil aborda experimentos em escala 12B, estabilidade e colaborações.