Pourquoi les modèles de langage « hallucinent » et comment OpenAI modifie les évaluations pour plus de fiabilité
Sources: https://openai.com/index/why-language-models-hallucinate, OpenAI
TL;DR
- Les hallucinations se produisent lorsque des modèles de langage produisent des informations fausses avec assurance, même s’ils gagnent en capacité.
- Les évaluations axées sur la précision récompensent la supposition, ce qui peut pousser les modèles à répondre même lorsqu’ils ne savent pas.
- OpenAI propose des évaluations sensibles à l’incertitude et une notation qui découragent les erreurs confiantes et encouragent les abstentions appropriées.
- GPT‑5 affiche significativement moins d’hallucinations que les versions antérieures, mais le phénomène persiste; améliorer l’évaluation est essentiel pour des réductions plus larges.
- Une approche structurée qui combine abstention, signalement de l’incertitude et notation calibrée peut favoriser un IA plus sûre et fiable.
Contexte et arrière-plan
OpenAI rapporte des efforts continus pour rendre les systèmes d’IA plus utiles et fiables, en reconnaissant que les hallucinations restent un défi important pour les modèles de langage. Les hallucinations sont définies comme des affirmations plausibles mais fausses générées par les modèles. Même des systèmes largement utilisés comme ChatGPT présentent ce comportement. L’article précise que le GPT‑5 présente beaucoup moins d’hallucinations, notamment dans les tâches de raisonnement, mais elles se produisent encore. L’idée générale est que les hallucinations constituent un défi fondamental pour les grands modèles de langage, et leur réduction nécessite des changements qui vont au-delà de l’augmentation de l’échelle. Le document soutient que les hallucinations ne proviennent pas uniquement de la qualité des données ou de la taille des modèles; elles sont aggravées par les incitations inhérentes aux procédures d’entraînement et d’évaluation courantes. Dans les faits, de nombreuses évaluations mesurent l’exactitude—la proportion de questions correctement répondue—plutôt que de vérifier si le modèle doit s’abstenir ou reconnaître son incertitude. L’article affirme que ce cadre incite le modèle à deviner plutôt qu’à hésiter lorsqu’il n’est pas sûr. Il illustre cela par des analogies simples: dans une épreuve à choix multiple, laisser une question vide rapporte zéro point, alors que deviner peut rapporter des points même si la réponse est incorrecte. Sur des milliers de questions, ce biais favorise les modèles qui répondent avec assurance mais avec des erreurs. Les auteurs distinguent trois catégories de réponses possibles pour les questions à réponse unique: réponses exactes, erreurs et abstentions (le modèle n’émet pas de réponse). Abstention est présentée comme de l’humilité, une valeur clé. Ils notent que la plupart des classements privilégient l’exactitude, et que les erreurs sont jugées plus sévèrement que les abstentions. Cette approche justifie le développement de schémas d’évaluation qui récompensent l’incertitude et les demandes de clarification lorsque cela est approprié. Un exemple concret discuté dans le papier compare des modèles sur l’évaluation SimpleQA. Le tableau oppose GPT‑5 thinking mini et OpenAI o4‑mini et montre comment des stratégies de devinette peuvent améliorer l’exactitude apparente tout en augmentant les erreurs et les hallucinations. L’argument clé est que l’exactitude seule sur un test simple ne reflète pas la fiabilité en conditions réelles d’utilisation. Les auteurs proposent également une justification plus générale pour leur approche. Les modèles de langage apprennent en préentraînement à prédire le mot suivant dans d’immenses corpus de texte, sans étiquettes explicites “vrai/faux”. Par conséquent, les faits arbitraires de faible fréquence peuvent devenir des hallucinations car les motifs seuls ne permettent pas d’assurer la véracité. Ils soutiennent que des mécanismes post‑préentraînement plus solides peuvent atténuer certains problèmes, mais la solution dépend aussi d’une évaluation et d’une calibration appropriées. GPT‑5 est mis en avant pour ses progrès de réduction des hallucinations, en particulier sur les tâches de raisonnement, mais les hallucinations persistent selon les auteurs. Le progrès dépend à la fois de l’amélioration des modèles et de réformes d’évaluation qui encouragent des réponses plus prudentes et bien fondées.
Pourquoi cela importe (impact pour les développeurs/entreprises)
Pour les développeurs et les entreprises, l’article décrit une voie pratique vers des IA plus sûres et plus fiables. Si les méthodes d’évaluation évoluent pour pénaliser les erreurs confiantes et récompenser l’humilité, les modèles apprendront à s’abstenir quand l’information n’est pas sûre et à poser des questions de clarification lorsque nécessaire. Les implications concrètes incluent:
- Déploiement plus sûr: réduction du risque de fournir des informations fausses avec assurance dans des domaines critiques.
- Meilleure expérience utilisateur: l’abstention et les demandes de clarification améliorent la transparence et la fiabilité, notamment dans les scénarios complexes.
- Signaux de conformité plus clairs: les sorties marquées par l’incertitude peuvent mieux répondre aux exigences de gouvernance et de gestion des risques.
- Adoption de techniques de réduction des hallucinations: des évaluations plus robustes peuvent accélérer l’adoption de techniques existantes et nouvelles. Les auteurs soulignent également que les réductions ne remplacent pas la supervision humaine dans les applications à haut risque; l’objectif est de permettre un usage plus sûr via des évaluations améliorées, la modélisation de l’incertitude et des réponses calibrées.
Détails techniques ou Mise en œuvre (à propos)
L’argument central est le décalage entre la formation et l’évaluation. Le pré-entraînement consiste à prédire le prochain mot à partir de vastes textes, sans étiquettes explicites de vérité/erreur. En conséquence, certains faits de faible fréquence peuvent devenir des hallucinations parce que les motifs ne garantissent pas la véracité. Les auteurs estiment que des garde-fous plus robustes après le pré-entraînement peuvent atténuer certains problèmes, mais la solution ne se limite pas à cela. Les propositions s’articulent autour de deux leviers:
- Repenser l’évaluation: aller au-delà de l’exactitude comme seul objectif. Installer une notation qui pénalise plus fortement les erreurs confiantes que l’incertitude, et offrir un crédit partiel pour l’abstention ou pour une langue prudente.
- Signalement de l’incertitude: encourager les modèles à exprimer leur incertitude, à solliciter des clarifications ou à fournir des réponses conditionnelles lorsque l’information ne permet pas une vérité unique. Un exemple pratique discuté utilise l’évaluation SimpleQA pour illustrer le compromis entre abstention, exactitude et taux d’erreur. Le tableau compare GPT‑5 thinking mini et OpenAI o4‑mini, montrant que des stratégies visant l’exactitude immédiate peuvent s’accompagner de taux d’erreur et d’hallucinations plus élevés. Le message central est que plus l’exactitude est élevée sur un benchmark étroit, plus elle peut masquer des problèmes de fiabilité en utilisation réelle. Les auteurs citent le Model Spec, qui préconise d’indiquer l’incertitude ou de demander des clarifications comme stratégie privilégiée plutôt que d’affirmer avec certitude une incertitude. Ils évoquent aussi des recherches plus larges sur les évaluations qui prennent en compte la calibration et l’incertitude. Selon eux, mettre à jour les principaux tableaux de bord pour décourager les suppositions est une étape pratique et scalable vers une adoption plus large des méthodes de réduction des hallucinations.
Conclusions clés
- Les hallucinations résultent en partie d’incitations d’évaluation qui privilégient la supposition plutôt que l’expression d’incertitude.
- Les évaluations axées sur l’exactitude peuvent masquer les erreurs confiantes et d’autres formes d’hallucinations.
- La solution pratique consiste à pénaliser les erreurs confiantes et à récompenser l’abstention appropriée.
- Les progrès des modèles (par exemple, GPT‑5) réduisent les hallucinations mais ne les éliminent pas; réformer l’évaluation est essentiel pour des gains supplémentaires.
- Signalement de l’incertitude et métriques calibrées soutiennent l’adoption plus large de techniques de réduction des hallucinations.
FAQ
-
- **Q : Qu’est-ce qui provoque, selon l’article, les hallucinations ?**
Les incitations d’évaluation qui récompenseraient la supposition plutôt que l’expression d’incertitude, combinées à l’apprentissage par prédiction de mot suivant sans étiquettes vrai/faux explicites. - **Q : Comment les évaluations actuelles influencent le comportement des modèles ?** **A :** Elles privilégient l’exactitude et encouragent les réponses même lorsque l’incertitude est élevée, augmentant ainsi les erreurs confiantes et les hallucinations. - **Q : Quelle solution est proposée ?** **A :** Pénaliser les erreurs confiantes plus que l’incertitude et accorder un crédit partiel pour l’abstention appropriée ou l’expression prudente de l’incertitude. - **Q : Comment les modèles plus récents se comparent-ils aux anciens ?** **A :** Le GPT‑5 montre moins d’hallucinations, surtout sur le raisonnement, mais le problème persiste; le ChatGPT présente également des hallucinations. - **Q : Que démontre l’exemple SimpleQA ?** **A :** Il montre que viser l’exactitude peut augmenter les hallucinations et que l’évaluation doit être sensible à l’incertitude pour refléter l’usage réel.
Références
More news
Détection et réduction de scheming dans les modèles d IA : progrès, méthodes et implications
OpenAI et Apollo Research ont évalué le désalignement caché dans des modèles de frontière, observé des comportements de scheming et testé une méthode d’alignement délibératif qui a réduit les actions covertes d’environ 30x, tout en reconnaissant des limites et des travaux en cours.
Vers une Prédiction d’Âge : OpenAI Adapte ChatGPT aux Adolescents et aux Familles
OpenAI décrit un système de prédiction d’âge à long terme pour adapter ChatGPT aux utilisateurs de moins de 18 ans et de 18 ans et plus, avec des politiques adaptées, des mesures de sécurité et des contrôles parentaux à venir.
Teen safety, freedom, and privacy
Explore OpenAI’s approach to balancing teen safety, freedom, and privacy in AI use.
OpenAI, NVIDIA et Nscale lancent Stargate UK pour une IA souveraine au Royaume-Uni
OpenAI, NVIDIA et Nscale annoncent Stargate UK, une infrastructure d’IA souveraine offrant un pouvoir de calcul local au Royaume-Uni pour soutenir les services publics, les secteurs réglementés et les objectifs nationaux d’IA.
OpenAI présente GPT‑5‑Codex : code plus rapide, plus fiable et revues de code avancées
OpenAI dévoile GPT‑5‑Codex, une version de GPT‑5 optimisée pour le codage orienté agent dans Codex. Accélère les sessions interactives, gère des tâches longues, améliore les revues de code et fonctionne sur terminal, IDE, web, GitHub et mobile.
Addenda GPT-5-Codex : GPT-5 optimisé pour le codage agent et mesures de sécurité
Un addenda détaillant GPT-5-Codex, une variante de GPT-5 optimisée pour le codage dans Codex, avec des mesures de sécurité et une disponibilité multiplateforme.