Por que modelos de linguagem alucinam — e como a OpenAI está reformulando avaliações para aumentar a confiabilidade
Sources: https://openai.com/index/why-language-models-hallucinate, OpenAI
TL;DR
- Alucinações ocorrem quando modelos de linguagem produzem informações falsas com confiança, mesmo quando se tornam mais capazes.
- Avaliações baseadas apenas em precisão recompensam adivinhação, o que pode levar a respostas confiantes e incorretas.
- A OpenAI propõe avaliação sensível à incerteza e pontuação para desencorajar erros confiantes e recompensar abstinções apropriadas.
- O GPT‑5 apresenta menos alucinações, porém elas persistem; melhorar a avaliação é fundamental para reduções mais amplas.
- Uma abordagem estruturada — combinar abstinção, sinalização de incerteza e pontuação calibrada — pode avançar para IA mais segura e confiável.
Contexto e antecedentes
A OpenAI relata trabalho contínuo para tornar os sistemas de IA mais úteis e confiáveis, reconhecendo que as alucinações continuam sendo um desafio persistente para modelos de linguagem. Alucinações são definidas como declarações plausíveis, porém falsas, geradas por modelos. Mesmo sistemas amplamente utilizados, como o ChatGPT, exibem esse comportamento. A empresa nota que o GPT‑5 tem significativamente menos alucinações, especialmente em tarefas de raciocínio, mas elas ainda ocorrem. A ideia central é que as alucinações são um desafio fundamental para grandes modelos de linguagem, e reduzi-las requer mudanças além do simples aumento de escala. O artigo afirma que as alucinações não resultam apenas de qualidade de dados ou tamanho do modelo; elas são agravadas pelos incentivos presentes nos procedimentos de treinamento e avaliação padrão. Na prática, muitas avaliações medem apenas a exatidão — a proporção de perguntas respondidas corretamente — em vez de se o modelo deveria abstiver ou reconhecer incerteza. O estudo argumenta que esse arrangements de avaliação incentiva o modelo a arriscar respostas ao invés de se abster quando não tem certeza. O texto usa analogias simples: em uma prova de múltipla escolha, deixar a pergunta em branco gera zero pontos, enquanto chutar pode dar pontos mesmo que a resposta esteja errada. Ao longo de milhares de questões, esse viés favorece respostas confiantes, porém erradas. Os autores identificam três categorias de respostas para perguntas com uma única resposta correta: respostas precisas, erros e abstinções (quando o modelo não arrisca uma resposta). Abstenção é apresentada como humildade, um valor central para a organização. Eles observam que a maioria dos quadros de avaliação prioriza a exatidão, e que erros são tratados com piora do que abstinção. Esse enquadramento sustenta o desenvolvimento de esquemas de avaliação que recompensem a incerteza e a clareza quando apropriado. Um exemplo concreto discutido no artigo compara modelos no SimpleQA. A tabela contrasta GPT‑5 thinking mini com OpenAI o4‑mini e mostra como adivinhar estrategicamente pode aumentar a precisão aparente, mas aumenta erros e, principalmente, alucinações. A conclusão é que a exatidão sozinha não captura a confiabilidade de um modelo em uso real, onde algumas questões não têm resposta definitiva ou exigem contexto adicional. Os autores também apresentam uma justificativa mais ampla para sua abordagem. Eles argumentam que a raiz das alucinações está nos padrões de dados observados durante o pré-treinamento. Modelos de linguagem aprendem prevendo a próxima palavra em enormes conjuntos de texto, sem rótulos verdade/falso. Consequentemente, é difícil distinguir declarações válidas de inválidas quando não há rótulos explícitos de validação. Isso cria uma propensão a afirmações incorretas para fatos de baixa frequência, como datas de aniversário, se os padrões não ancoram a veracidade. Os autores esclarecem que, embora saídas incorretas como erros de ortografia ou parênteses incorretos diminuam com a escala, fatos arbitrários de baixa frequência ainda podem levar a alucinações. Mesmo com melhorias, etapas subsequentes ao pré-treinamento não eliminam completamente esses problemas. A análise apresentada visa oferecer uma lente estatística para entender de onde vêm as alucinações e como a avaliação molda o comportamento dos modelos. A posição da OpenAI não é apenas descritiva; ela solicita uma mudança prática na forma como os modelos são avaliados e como o sucesso é definido. Os autores argumentam que corrigir os quadros principais de avaliação, desencorajando adivinhação, pode ampliar a adoção de técnicas para reduzir alucinações, tanto novas como de pesquisas anteriores. O objetivo é substituir o binário correto/incorreto por um espectro que inclua expressões apropriadas de incerteza e solicitações de esclarecimento.
O que houve de novo
A contribuição central do artigo é conectar alucinações com incentivos de avaliação por meio de uma lente estatística. Os autores sustentam que avaliações baseadas apenas em exatidão promovem a adivinhação, o que aumenta a probabilidade de erros confiantes e alucinações. Propõem uma solução prática: penalizar erros confiantes mais fortemente do que incerteza e oferecer crédito parcial para abstinção adequada ou linguagem cautelosa. Essa perspectiva não é apresentada como inteiramente nova isoladamente — marcações negativas e crédito parcial já apareceram em testes padronizados e pesquisas anteriores —, mas os autores afirmam que as avaliações amplamente usadas ainda dominam os rankings e cards de modelos. Eles argumentam que atualizar as métricas principais para desencorajar adivinhação é essencial para reduções mais amplas de alucinações no uso real. Ao comparar modelos diferentes na SimpleQA, fica claro que altas taxas de exatidão em benchmarks simples podem ocultar taxas maiores de erros confiantes em cenários reais. A análise também revisita a dinâmica de treinamento que gera alucinações. O pré-treinamento visa prever a próxima palavra a partir de grandes volumes de texto, sem rótulos explícitos de verdade. Logo, fatos de baixa frequência podem tornar-se alucinações porque padrões sozinhos não sustentam a verdade. Os autores defendem que salvaguardas mais fortes após o pré-treinamento podem reduzir alguns problemas, mas a solução está ligada à avaliação e à calibração. O GPT‑5 é destacado por apresentar menos alucinações em relação a iterações anteriores, especialmente em tarefas de raciocínio, mas os pesquisadores ressaltam que as alucinações persistem. O progresso virá da combinação entre melhorias de modelo e reformas de avaliação para incentivar respostas mais contidas e bem fundamentadas.
Por que isso importa (impacto para desenvolvedores/empresas)
Para desenvolvedores e empresas, o artigo delineia um caminho prático para IA mais segura e confiável. Se os métodos de avaliação forem redesenhados para penalizar erros confiantes e recompensar a humildade, os modelos tenderão a recusar respostas quando a informação é incerta e a fazer perguntas de esclarecimento quando necessário. Implicações práticas incluem:
- Implantação mais segura: menor probabilidade de informações falsas de forma confiante em domínios críticos.
- Melhor experiência do usuário: abstinções e solicitações de confirmação aumentam transparência e confiabilidade, especialmente em cenários complexos.
- Sinais de conformidade mais claros: saídas com incerteza podem alinhar-se a requisitos de governança e gestão de risco.
- Adoção de técnicas de redução de alucinações: avaliações mais robustas podem acelerar a adoção de técnicas existentes e novas para reduzir alucinações. Os autores enfatizam que reduções nas alucinações não substituem supervisão humana em aplicações de alto risco; o objetivo é facilitar um uso mais seguro por meio de avaliações melhores, modelagem de incerteza e respostas calibradas.
Detalhes técnicos ou Implementação (item a item)
Um ponto técnico central é o descompasso entre como os modelos são treinados e como são avaliados. O pré-treinamento ensina a prever a próxima palavra com base em grandes conjuntos de texto, sem rótulos de verdade. Consequentemente, fatos arbitrários de baixa frequência podem tornar‑se alucinações porque os padrões não garantem a veracidade. Os autores argumentam que estáveis salvaguardas após o pré-treinamento ajudam, mas não eliminam completamente o problema. As propostas de implementação concentram-se em duas alavancas:
- Redefinição de avaliação: ir além da exatidão como único objetivo. Inserir pontuação que penalize erros confiantes mais do que a incerteza, oferecendo crédito parcial para abstinção ou linguagem cautelosa.
- Sinalização de incerteza: incentivar modelos a apresentar incerteza, fazer perguntas de clarificação ou fornecer respostas condicionais quando a informação é insuficiente para uma única verdade. Um exemplo prático apresentado utiliza a avaliação SimpleQA para ilustrar a troca entre abstinção, exatidão e taxas de erro. A tabela compara GPT‑5 thinking mini com OpenAI o4‑mini, demonstrando que estratégias que maximalizam a exatidão imediata podem acompanhar taxas maiores de erro e de alucinações. A mensagem principal é que uma alta exatidão em um conjunto estreito não reflete a confiabilidade de uso real. Os autores citam o Model Spec, que defende indicar incerteza ou buscar esclarecimento como estratégia preferencial em vez de afirmar com confiança uma incerteza. Eles discutem também pesquisas mais amplas sobre avaliações que consideram calibragem e incerteza. Segundo eles, atualizar os quadros principais de avaliação para desencorajar adivinhação é uma etapa prática e escalável para maior adoção de métodos de redução de alucinações.
Principais conclusões
- Alucinações surgem, em parte, do incentivo de avaliação que recompensa adivinhação em vez de reconhecer incerteza.
- Avaliações baseadas apenas em exatidão podem mascarar a incidência de erros confiantes e de alucinações.
- A solução prática envolve penalizar erros confiantes mais fortemente e oferecer crédito parcial para abstinção apropriada.
- Melhoria de modelos (por exemplo, GPT‑5) reduz alucinações, mas elas persistem; reformular avaliações é essencial para ganhos adicionais.
- Sinalização de incerteza e benchmarks calibrados ajudam a implantar técnicas de redução de alucinações com maior segurança.
Perguntas frequentes (FAQ)
- Q: O que, segundo o artigo, causa as alucinações? A: As alucinações são impulsionadas por incentivos de avaliação que premiam adivinhação e não reconhecer incerteza, aliado ao treinamento por prever a próxima palavra sem rótulos explícitos de verdade.
- Q: Como as avaliações atuais influenciam o comportamento do modelo? A: Avaliações centradas na exatidão incentivam adivinhar, o que pode aumentar erros confiantes e alucinações em cenários do mundo real.
- Q: Qual é a solução proposta? A: Penalizar erros confiantes mais do que a incerteza e oferecer crédito parcial por abstinção adequada ou por expressão prudente de incerteza.
- Q: Como os modelos mais novos se comparam aos mais antigos? A: O GPT‑5 tem menos alucinações, especialmente em raciocínio, mas elas ainda ocorrem; o ChatGPT também alucina.
- Q: O que o exemplo SimpleQA ilustra? A: Demonstra como estratégias que aumentam a pontuação de exatidão podem ocultar maiores taxas de erro e alucinações, destacando a necessidade de avaliações sensíveis à incerteza.
Referências
More news
Deteção e redução de scheming em modelos de IA: avanços, métodos e implicações
OpenAI e Apollo Research avaliaram desalineação oculta em modelos de fronteira, observaram comportamentos de scheming e testaram um método de alinhamento deliberativo que reduziu ações encobertas em cerca de 30x, com limitações e trabalhos em andamento.
Reduzindo a Latência de Cold Start para Inferência de LLM com NVIDIA Run:ai Model Streamer
Análise detalhada de como o NVIDIA Run:ai Model Streamer reduz o tempo de cold-start na inferência de LLMs ao transmitir pesos para a memória da GPU, com benchmarks em GP3, IO2 e S3.
Teen safety, freedom, and privacy
Explore OpenAI’s approach to balancing teen safety, freedom, and privacy in AI use.
Rumo à Predição de Idade: OpenAI Adapta o ChatGPT para Adolescentes e Famílias
OpenAI descreve um sistema de longo prazo de predição de idade para adaptar o ChatGPT a usuários com menos de 18 anos e adultos, com políticas apropriadas por faixa etária, salvaguardas de segurança e controles parentais.
OpenAI, NVIDIA e Nscale apresentam Stargate UK para Infraestrutura de IA Soberana no Reino Unido
OpenAI, NVIDIA e Nscale anunciam Stargate UK, uma parceria de infraestrutura de IA soberana que oferece poder de computação local no Reino Unido para apoiar serviços públicos, setores regulados e metas nacionais de IA.
OpenAI apresenta GPT-5-Codex: assistente de codificação mais rápido, confiável e com revisões de código avançadas
A OpenAI apresenta o GPT‑5‑Codex, uma versão do GPT‑5 otimizada para codificação guiada por agentes no Codex. Acelera trabalhos interativos, gerencia tarefas longas, aprimora revisões de código e funciona no terminal, IDE, web, GitHub e mobile.