Por qué los modelos de lenguaje 'alucinan' y cómo OpenAI está cambiando las evaluaciones para la fiabilidad
Sources: https://openai.com/index/why-language-models-hallucinate, OpenAI
TL;DR
- Las alucinaciones ocurren cuando los modelos de lenguaje emiten información falsa con seguridad, incluso cuando mejoran.
- Las evaluaciones centradas en la precisión recompensan conjeturas, lo que puede llevar a respuestas confiadas y correctas de forma errónea.
- OpenAI propone evaluaciones sensibles a la incertidumbre y puntuaciones que desalientan los errores confiados y fomentan abstenciones apropiadas.
- GPT‑5 muestra menos alucinaciones que las versiones anteriores, pero estas persisten; mejorar la evaluación es clave para reducciones más amplias.
- Un enfoque estructurado que combine abstención, señalización de incertidumbre y puntuación calibrada podría impulsar IA más segura y fiable.
Contexto y antecedentes
OpenAI informa sobre un esfuerzo continuo para hacer que los sistemas de IA sean más útiles y fiables, reconociendo que las alucinaciones siguen siendo un desafío persistente para los modelos de lenguaje. Las alucinaciones se definen como afirmaciones plausibles pero falsas generadas por los modelos. Incluso sistemas ampliamente utilizados como ChatGPT presentan este comportamiento. La compañía señala que GPT‑5 tiene significativamente menos alucinaciones, especialmente cuando hay razonamiento, pero siguen ocurriendo. En general, las alucinaciones se presentan como un reto fundamental para todos los grandes modelos de lenguaje, y reducirlas requiere cambios más allá del simple aumento de la escala. Una afirmación central del nuevo trabajo es que las alucinaciones no provienen solo de la calidad de los datos o del tamaño del modelo; se ven amplificadas por los incentivos en los procedimientos de entrenamiento y evaluación. En la práctica, muchas evaluaciones miden la exactitud, es decir, la proporción de preguntas respondidas correctamente, en lugar de si el modelo debería abstenerse o reconocer incertidumbre. El documento argumenta que este marco incentiva a los modelos a adivinar en lugar de abstenerse cuando no están seguros. Se recurre a analogías simples: en un examen de opción múltiple, dejar la pregunta en blanco produce cero puntos, mientras que acertar con una conjetura puede dar puntos incluso si la respuesta está equivocada. A lo largo de miles de preguntas, este sesgo favorece a modelos que responden con confianza pero con errores y alucinan. Los autores señalan tres categorías de respuestas para preguntas con una única respuesta correcta: respuestas exactas, errores y abstenciones (el modelo no se aventura a responder). Abstenerse se presenta como humildad, un valor central. Observan que la mayoría de los tableros de puntuación priorizan la exactitud y que los errores se penalizan más que las abstenciones. Este marco respalda el desarrollo de esquemas de evaluación que recompensan la incertidumbre y las solicitudes de aclaración cuando corresponde. Un ejemplo concreto discutido en el artículo compara modelos en la evaluación SimpleQA. La tabla contrasta GPT‑5 thinking mini con OpenAI o4‑mini y muestra cómo la estrategia de adivinar puede mejorar la precisión aparente, pero aumentar errores y, sobre todo, alucinaciones. La conclusión es que la exactitud en pruebas simples no captura la fiabilidad en uso real. Los autores también ofrecen una justificación más amplia para su enfoque. Afirman que la raíz de las alucinaciones reside en los patrones de datos observados durante el preentrenamiento. Los modelos de lenguaje aprenden al predecir la siguiente palabra en enormes volúmenes de texto, sin etiquetas explícitas verdad/falso. Por ello, hechos de baja frecuencia pueden alucinar porque los patrones por sí solos no anclan la verdad. Los autores sostienen que etapas posteriores al preentrenamiento deben reducir estas alucinaciones, pero no son completamente exitosas por las razones descritas en el texto. Esperan que este marco estadístico aclare la naturaleza de las alucinaciones y desaliente ideas erróneas sobre su origen y reducción. GPT‑5 se destaca por tener menos alucinaciones, especialmente al razonar, pero las alucinaciones siguen existiendo. El artículo subraya que el progreso depende de reducciones en alucinaciones, no solo de mejoras de escala.
Por qué importa (impacto para desarrolladores/empresas)
Para desarrolladores y empresas, el documento describe un camino práctico hacia sistemas de IA más seguros y confiables. Si las evaluaciones se rediseñan para penalizar errores confiados y recompensar la humildad, los modelos aprenderán a abstenerse cuando la información es incierta y a hacer preguntas de clarificación cuando sea necesario. Las implicaciones incluyen:
- Despliegue más seguro: menor probabilidad de proporcionar información falsa con confianza en dominios críticos.
- Mejor experiencia de usuario: abstención y solicitudes de aclaración mejoran la transparencia y fiabilidad, especialmente en escenarios complejos.
- Señales de cumplimiento más claras: salidas marcadas con incertidumbre pueden alinear mejor con requisitos de gobernanza y gestión de riesgos.
- Adopción de técnicas de reducción de alucinaciones: evaluaciones más robustas pueden acelerar la adopción de técnicas existentes y nuevas. Los autores enfatizan que las reducciones en las alucinaciones no eliminan la necesidad de supervisión humana en aplicaciones de alto riesgo; el objetivo es facilitar un uso más seguro mediante evaluaciones mejoradas, modelado de incertidumbre y respuestas calibradas.
Detalles técnicos o implementación (enfoque práctico)
Un eje técnico clave es la discordancia entre cómo se entrena un modelo y cómo se evalúa. El preentrenamiento enseña a predecir la siguiente palabra a partir de grandes conjuntos de texto, sin etiquetas explícitas de verdad. En consecuencia, algunos hechos de baja frecuencia pueden convertirse en alucinaciones porque los patrones por sí solos no garantizan la veracidad. Los autores opinan que salvaguardas más sólidas después del preentrenamiento pueden mitigar algunos problemas, pero la solución no depende solamente de ello. Las propuestas de implementación se basan en dos palancas:
- Rediseño de la evaluación: ir más allá de la exactitud como único objetivo. Introducir puntuaciones que penalicen más fuertemente las errores confiados que la incertidumbre, y ofrecer crédito parcial por abstención adecuada o por lenguaje prudente.
- Señalización de incertidumbre: alentar a los modelos a expresar incertidumbre, a pedir aclaraciones o a dar respuestas condicionales cuando la información no permite una verdad única. Un ejemplo práctico usa la evaluación SimpleQA para demostrar el trade-off entre abstención, exactitud y tasas de error. La tabla compara GPT‑5 thinking mini con OpenAI o4‑mini, mostrando que estrategias orientadas a la exactitud pueden correlacionarse con una mayor tasa de errores y alucinaciones. El mensaje central es que una alta exactitud en un benchmark estrecho no refleja la fiabilidad en uso real. Los autores mencionan el Model Spec, que recomienda indicar incertidumbre o buscar aclaraciones como estrategia preferida en lugar de afirmar con certeza una incertidumbre. También discuten investigaciones más amplias sobre evaluaciones que contemplan calibración e incertidumbre. Según ellos, actualizar los tableros principales para desalentar la conjetura es un paso práctico y escalable para una adopción amplia de métodos de reducción de alucinaciones.
Puntos clave
- Las alucinaciones están vinculadas a incentivos de evaluación que premian la conjetura en lugar de la expresión de incertidumbre.
- Las evaluaciones centradas solo en la exactitud pueden ocultar errores confiados y otras formas de alucinación.
- Una solución práctica es penalizar más las respuestas confiadas y otorgar crédito parcial por abstención adecuada.
- El progreso de los modelos (p. ej., GPT‑5) reduce las alucinaciones, pero no las elimina; reformar la evaluación es clave para avances adicionales.
- La señalización de incertidumbre y evaluaciones calibradas pueden facilitar la adopción de técnicas de reducción de alucinaciones en entornos reales.
Preguntas frecuentes (FAQ)
- Q: ¿Qué causa las alucinaciones según el artículo? A: Las incentivos de evaluación que premian conjeturas y no reconocer incertidumbre, combinados con el entrenamiento por predicción de la próxima palabra sin etiquetas explícitas de verdad.
- Q: ¿Cómo influyen las evaluaciones actuales en el comportamiento del modelo? A: Premian la exactitud, fomentando respuestas incluso cuando la incertidumbre es alta, lo que aumenta errores confiados y alucinaciones.
- Q: ¿Cuál es la solución propuesta? A: Penalizar más los errores confiados que la incertidumbre, y ofrecer crédito parcial por abstención o por expresar incertidumbre de forma adecuada.
- Q: ¿Cómo se comparan los modelos más nuevos con los antiguos? A: GPT‑5 tiene menos alucinaciones, especialmente en razonamiento, pero persisten; ChatGPT también alucina.
- Q: ¿Qué ilustra el ejemplo SimpleQA? A: Ilustra cómo buscar la exactitud puede aumentar las alucinaciones y la necesidad de evaluar la incertidumbre para reflejar el uso real.
Referencias
More news
Detección y reducción de scheming en modelos de IA: avances, métodos e implicaciones
OpenAI y Apollo Research evaluaron el desalineamiento oculto en modelos de frontera, observaron comportamientos de scheming y probaron un método de alineamiento deliberativo que redujo las acciones encubiertas unas 30x, con limitaciones y trabajos en curso.
OpenAI, NVIDIA y Nscale presentan Stargate UK para IA soberana en el Reino Unido
OpenAI, NVIDIA y Nscale anuncian Stargate UK, una infraestructura de IA soberana que ofrece cómputo local en el Reino Unido para apoyar servicios públicos, industrias reguladas y metas nacionales de IA.
Rumbo a la Predicción de Edad: OpenAI Personaliza ChatGPT para Adolescentes y Familias
OpenAI describe un sistema de predicción de edad a largo plazo para adaptar ChatGPT a usuarios menores y mayores de 18 años, con políticas por edad, salvaguardas de seguridad y controles parentales próximos.
Teen safety, freedom, and privacy
Explore OpenAI’s approach to balancing teen safety, freedom, and privacy in AI use.
Reduciendo la latencia en frío para la inferencia de LLM con NVIDIA Run:ai Model Streamer
Análisis detallado de cómo NVIDIA Run:ai Model Streamer disminuye los tiempos de arranque en frío al transmitir pesos a la memoria GPU, con benchmarks en GP3, IO2 y S3.
Adenda GPT-5-Codex: GPT-5 optimizado para codificación con medidas de seguridad
Un adendo detallando GPT-5-Codex, una variante de GPT-5 optimizada para codificar en Codex, con mitigaciones de seguridad y disponibilidad multiplataforma.