OpenAI se asocia con CAISI de EE. UU. y UK AISI para fortalecer la seguridad de la IA
Sources: https://openai.com/index/us-caisi-uk-aisi-ai-update, OpenAI
TL;DR
- OpenAI amplía sus acuerdos voluntarios con el CAISI (Centro de Estándares e Innovación de IA) y el UK AISI (Instituto de Seguridad de IA del Reino Unido) para fortalecer el despliegue seguro de IA de frontera. OpenAI CAISI update
- Las colaboraciones incluyen red-teaming conjunto de salvaguardas contra el uso biológico indebido, pruebas de extremo a extremo de productos y bucles de retroalimentación rápida para resolver vulnerabilidades. OpenAI CAISI update
- CAISI identificó dos vulnerabilidades de seguridad nuevas en ChatGPT Agent, con una demostración de concepto que mostró una capacidad de eludir protecciones de alrededor del 50%; las fallas se corrigieron en un día hábil. OpenAI CAISI update
- Desde mayo, UK AISI ha estado realizando red-teaming de salvaguardas contra uso biológico indebido, cubriendo ChatGPT Agent y GPT‑5, con una cadencia semanal y acceso a herramientas no públicas para acelerar mejoras. OpenAI CAISI update
- Esta colaboración demuestra cómo gobiernos e industria pueden trabajar juntos para elevar los estándares de seguridad y fomentar una adopción responsable de la IA.
Contexto y antecedentes
OpenAI sostiene que desarrollar e implantar IA segura y útil es fundamental para su misión de garantizar que la IA general beneficie a toda la humanidad, y que esto requiere cooperación continua con autoridades y organismos de normas. OpenAI firmó acuerdos voluntarios con CAISI (Centro de Estándares e Innovación de IA) y con el UK AI Security Institute (UK AISI) como parte de su enfoque para el despliegue seguro de IA de frontera. Estos socios reflejan la creencia de que el desarrollo de IA de frontera debe ocurrir en estrecha colaboración con gobiernos aliados que aportan experiencia en aprendizaje automático, seguridad nacional y metrología. Durante más de un año, OpenAI ha colaborado con CAISI para evaluar las capacidades de los modelos de OpenAI en ciberseguridad, biosciencias y otros dominios relevantes para la seguridad nacional. OpenAI CAISI update El trabajo con CAISI complementa el programa de seguridad de OpenAI y las evaluaciones ya existentes, y la colaboración con UK AISI complementa los esfuerzos sobre salvaguardas ante usos biológicos indebidos. La participación de UK AISI comenzó en mayo con red-teaming de salvaguardas en los sistemas de OpenAI, incluyendo ChatGPT Agent y GPT‑5, como parte de un programa continuo y no atado a un lanzamiento específico. El enfoque enfatiza bucles de retroalimentación rápidos y coordinación técnica estrecha entre equipos. OpenAI CAISI update
Qué hay de nuevo
La actualización destaca varios aspectos nuevos de las colaboraciones CAISI/UK AISI:
- Enfoque en seguridad de sistemas agentivos: OpenAI y CAISI realizaron red-teaming de los sistemas agentivos de OpenAI, con evaluadores externos para identificar y corregir vulnerabilidades en tiempo real. Esto incluyó una etapa preliminar hacia nuevas formas de evaluar sistemas agentivos. OpenAI CAISI update
- Resultados de la colaboración de julio: CAISI tuvo acceso anticipado a ChatGPT Agent, lo que ayudó a entender la arquitectura del sistema y posteriormente realizar el red-teaming del sistema publicado. OpenAI CAISI update
- Vulnerabilidades y remediación: CAISI identificó dos vulnerabilidades de seguridad nuevas que, bajo ciertas condiciones, podrían permitir a un atacante sofisticado evadir salvaguardas y controlar de forma remota la sesión del agente y hacerse pasar por el usuario en otros sitios. Una prueba de concepto mostró una tasa de éxito de aproximadamente el 50%. OpenAI corrigió estas vulnerabilidades en un día hábil. Este trabajo subraya la necesidad de encadenar vulnerabilidades de software tradicionales con vulnerabilidades de IA para probar las salvaguardas. OpenAI CAISI update
- Pruebas biológicas con UK AISI: Como parte de la colaboración continua, UK AISI comenzó a red-teaming de las salvaguardas contra uso biológico en mayo (según las políticas de OpenAI) para ChatGPT Agent y GPT‑5. La colaboración es continua y no está ligada a un lanzamiento específico. OpenAI CAISI update
- Acceso y entorno de pruebas: UK AISI obtuvo acceso profundo a nuestros sistemas y herramientas de prueba no públicas, lo que permitió pruebas más profundas. Esto ayudó a exponer fallos que serían difíciles de reproducir para atacantes externos. OpenAI CAISI update Junto con estas observaciones, los esfuerzos han llevado a mejoras en el monitoreo, las configuraciones de productos y la aplicación de políticas, beneficiando a los usuarios finales y a la seguridad de los productos de OpenAI ampliamente utilizados. La participación de UK AISI también fortaleció el conjunto de salvaguardas de moderación. OpenAI CAISI update
Por qué importa (impacto para desarrolladores/empresas)
La colaboración con CAISI y UK AISI señala un enfoque de seguridad en capas que combina evaluación externa con endurecimiento interno. Al validar capacidades agentivas, someter a prueba las salvaguardas contra usos indebidos y corregir vulnerabilidades identificadas con rapidez, OpenAI busca elevar estándares de la industria y aumentar la confianza en la adopción de IA. Para desarrolladores y empresas, esto implica salvaguardas más robustas, mejor monitoreo y una respuesta más rápida a problemas de seguridad, todo dentro de un marco de cooperación entre gobiernos e industria. OpenAI CAISI update
Detalles técnicos o Implementación
El programa conjunto combina pruebas de ciberseguridad tradicionales con red-teaming específico de IA, produciendo mejoras tangibles en salvaguardas y seguridad del producto. Elementos clave:
- Red-teaming en dos frentes: experiencia del CAISI en ciberseguridad y seguridad de IA aplicada a sistemas agentivos para evaluar ChatGPT Agent. OpenAI CAISI update
- Pruebas de extremo a extremo: evaluación de configuraciones y respuestas del sistema para abordar vulnerabilidades que pueden emerger en la experiencia completa del usuario. OpenAI CAISI update
- Triaje rápido de vulnerabilidades: más de una docena de informes de vulnerabilidad presentados por UK AISI, con algunos conduciendo a mejoras de ingeniería y de políticas o clasificadores. OpenAI CAISI update
- Fortalecimiento del monitoreo y guardarraíles: mejoras en el stack de monitoreo evaluadas frente a jailbreaks universales identificados por UK AISI. OpenAI CAISI update
- Configuraciones de prueba personalizadas: OpenAI creó configuraciones específicas adaptadas a los resultados del UK AISI para evaluaciones más efectivas. OpenAI CAISI update
- Acceso a herramientas no públicas: la colaboración permitió acceso a herramientas no públicas y detalles de diseño para facilitar un red-teaming más completo. OpenAI CAISI update
- Salvaguardas más robustas: el trabajo complementa los esfuerzos de salvaguarda biológica para fortalecer varias capas de seguridad. OpenAI CAISI update
Puntos clave a retenir
- La evaluación externa acelera mejoras de seguridad internas en sistemas de IA.
- Red-teaming de IA agentiva y salvaguardas biológicas pueden revelar nuevas rutas de ataque que combinan vulnerabilidades de software y de IA.
- Las correcciones rápidas, a veces en un día hábil, son posibles gracias a la colaboración estrecha y al acceso a recursos de pruebas no públicos.
- Las alianzas con organismos de normas y seguridad pueden elevar la confianza en la seguridad de la IA.
Preguntas frecuentes (FAQ)
- Q: ¿Qué es CAISI? A: El US Center for AI Standards and Innovation, un organismo de investigación y normas con acuerdos voluntarios con OpenAI.
- Q: ¿Qué es UK AISI? A: El UK AI Security Institute, socio de OpenAI para el red-teaming de salvaguardas contra uso biológico indebido y otros riesgos.
- Q: ¿Qué vulnerabilidades se encontraron y cómo se gestionaron? A: CAISI identificó dos vulnerabilidades nuevas en ChatGPT Agent que podrían permitir a un atacante apartar salvaguardas y controlar la sesión; una prueba de concepto mostró una tasa de éxito de ~50%. Correcciones aplicadas en un día hábil. OpenAI CAISI update
- Q: ¿Por qué es importante para desarrolladores y empresas? A: Refuerza salvaguardas y seguridad de productos, mejora supervisión y pruebas, y demuestra una colaboración gubernamental-industrial para un despliegue de IA más seguro. OpenAI CAISI update
Referencias
More news
Detección y reducción de scheming en modelos de IA: avances, métodos e implicaciones
OpenAI y Apollo Research evaluaron el desalineamiento oculto en modelos de frontera, observaron comportamientos de scheming y probaron un método de alineamiento deliberativo que redujo las acciones encubiertas unas 30x, con limitaciones y trabajos en curso.
OpenAI, NVIDIA y Nscale presentan Stargate UK para IA soberana en el Reino Unido
OpenAI, NVIDIA y Nscale anuncian Stargate UK, una infraestructura de IA soberana que ofrece cómputo local en el Reino Unido para apoyar servicios públicos, industrias reguladas y metas nacionales de IA.
Rumbo a la Predicción de Edad: OpenAI Personaliza ChatGPT para Adolescentes y Familias
OpenAI describe un sistema de predicción de edad a largo plazo para adaptar ChatGPT a usuarios menores y mayores de 18 años, con políticas por edad, salvaguardas de seguridad y controles parentales próximos.
Teen safety, freedom, and privacy
Explore OpenAI’s approach to balancing teen safety, freedom, and privacy in AI use.
Adenda GPT-5-Codex: GPT-5 optimizado para codificación con medidas de seguridad
Un adendo detallando GPT-5-Codex, una variante de GPT-5 optimizada para codificar en Codex, con mitigaciones de seguridad y disponibilidad multiplataforma.
OpenAI presenta GPT‑5‑Codex: código más rápido, revisión de código avanzada y mayor confiabilidad
OpenAI revela GPT‑5‑Codex, una versión de GPT‑5 optimizada para codificación guiada por agentes en Codex. Acelera interacciones, maneja tareas largas, mejora las revisiones de código y funciona en terminal, IDE, web, GitHub y móvil.