OpenAI s’associe au CAISI américain et au UK AISI pour renforcer la sûreté et la sécurité de l’IA
Sources: https://openai.com/index/us-caisi-uk-aisi-ai-update, OpenAI
TL;DR
- OpenAI poursuit et étend ses accords volontaires avec le CAISI (Center for AI Standards and Innovation) et le UK AISI (UK AI Security Institute) pour renforcer le déploiement sûr de l’IA de frontière. OpenAI CAISI update
- Les collaborations incluent des red-teaming conjoints des garde-fous contre les usages biologiques abusifs, des tests bout en bout des produits et des boucles de rétroaction rapides pour résoudre les vulnérabilités. OpenAI CAISI update
- Le CAISI a identifié deux vulnérabilités de sécurité nouvelles dans ChatGPT Agent, avec une démonstration de concept montrant qu’un attaquant sophistiqué pouvait contourner les protections avec environ 50% de réussite; ces failles ont été corrigées en un jour ouvré. OpenAI CAISI update
- Depuis mai, le UK AISI red-teaming des garde-fous contre l’usage biologique abusif, couvrant ChatGPT Agent et GPT‑5, avec une cadence hebdomadaire et un accès à des outils non publics pour accélérer les améliorations. OpenAI CAISI update
- Cette collaboration montre comment les gouvernements et l’industrie peuvent travailler ensemble pour élever les standards de sécurité et favoriser une adoption responsable de l’IA.
Contexte et arrière-plan
OpenAI affirme que développer et déployer une IA sûre et utile est au cœur de sa mission d’assurer que l’AGI bénéficie à l’humanité tout entière, et que cela nécessite un travail continu avec des autorités nationales et des organismes de normalisation. OpenAI a conclu des accords volontaires avec le CAISI (Centre for AI Standards and Innovation) et le UK AI Security Institute (UK AISI) dans le cadre de son approche pour un déploiement sûr de l’IA de frontière. Ces partenariats reflètent la conviction que le développement de l’IA de frontière doit se faire en collaboration étroite avec des gouvernements alliés apportant leur expertise en apprentissage machine, sécurité nationale et métrologie. Depuis plus d’un an, OpenAI collabore avec le CAISI pour évaluer les capacités des modèles OpenAI dans des domaines sensibles à la sécurité nationale, comme la cybersécurité et les biosciences. OpenAI CAISI update Le travail avec le CAISI s’appuie sur le programme de sécurité interne et complète les efforts antérieurs. La collaboration avec le UK AISI complète les efforts de sauvegarde contre l’usage biologique abusif, et a débuté en mai avec le red-teaming des garde-fous sur les systèmes OpenAI, y compris ChatGPT Agent et GPT‑5, dans le cadre d’un programme continu et non lié à un seul lancement. La collaboration met l’accent sur des boucles de rétroaction rapides et une coordination technique étroite entre les équipes. OpenAI CAISI update
Ce qui est nouveau
La mise à jour met en lumière plusieurs éléments nouveaux des collaborations CAISI/UK AISI :
- Accent sur la sécurité des systèmes agentifs : OpenAI et CAISI ont mené des red-teaming des systèmes agentifs OpenAI, avec des évaluateurs externes pour identifier et corriger les vulnérabilités en temps réel. Cela comprenait une étape préliminaire vers de nouvelles approches d’évaluation des systèmes agentifs. OpenAI CAISI update
- Résultats de la collaboration de juillet : CAISI a eu un accès anticipé à ChatGPT Agent, ce qui a permis de comprendre l’architecture du système et d’effectuer ultérieurement le red-teaming du système publié. OpenAI CAISI update
- Vulnérabilités et remediation : CAISI a identifié deux vulnérabilités de sécurité nouvelles qui, dans certaines conditions, pourraient permettre à un attaquant sophistiqué de contourner les protections et de prendre le contrôle à distance de la session et d’usurper l’identité sur d’autres sites. Un démonstrateur a démontré environ 50% de taux de réussite. OpenAI a corrigé ces vulnérabilités en un jour ouvré. Ce travail met en évidence la nécessité d’aligner vulnérabilités logicielles traditionnelles et vulnérabilités liées à l’IA pour tester les garde-fous. OpenAI CAISI update
- Tests biologiques avec le UK AISI : Dans le cadre de la collaboration continue, le UK AISI a commencé le red-teaming des garde-fous contre l’usage biologique en mai (conformément aux politiques d’OpenAI) pour le ChatGPT Agent et le GPT‑5. La collaboration est itérative, avec des réunions fréquentes et des configurations sur mesure pour tester les faiblesses. OpenAI CAISI update
- Accès et environnement de test : Le UK AISI a bénéficié d’un accès approfondi aux systèmes et à des outils non publics pour permettre des tests plus approfondis, ce qui a aidé à faire émerger des défaillances difficiles à reproduire pour des attaquants externes. Les équipes ont travaillé par cycles d’interrogation, de renforcement des garde-fous et de retests. OpenAI CAISI update Ensemble, ces efforts ont conduit à des améliorations dans le monitoring, la configuration produit et l’application des politiques, au profit des utilisateurs finaux et de la sécurité des produits OpenAI largement déployés. L’implication du UK AISI a également renforcé le stack complet de modération. OpenAI CAISI update
Pourquoi cela compte (impact pour les développeurs/entreprises)
La collaboration CAISI et UK AISI illustre une approche sécurité en couches qui mêle évaluation externe et durcissement interne. En validant les capacités agentives, en testant les garde-fous contre les usages abusifs et en corrigeant rapidement les vulnérabilités identifiables, OpenAI cherche à élever les standards de l’industrie et à accroître la confiance dans les déploiements d’IA. Pour les développeurs et les entreprises, cela signifie des garde-fous plus robustes, une meilleure surveillance et une plus grande vitesse de correction, le tout dans un cadre de coopération transnationale entre autorités et industrie. OpenAI CAISI update
Détails techniques ou de mise en œuvre
Le programme conjoints allie des tests de cybersécurité traditionnels et du red-teaming spécifique à l’IA, produisant des améliorations concrètes des garde-fous et de la sécurité produit. Points clés :
- Red-teaming à double champ: expertise du CAISI en cybersécurité et en sécurité des systèmes IA agentifs appliquée au ChatGPT Agent. OpenAI CAISI update
- Tests de bout en bout: évaluation des configurations produit et des réponses du système, permettant de traiter des vulnérabilités susceptibles d’apparaître dans le flux complet de l’expérience utilisateur. OpenAI CAISI update
- Triages rapides des vulnérabilités: plus d’une douzaine de rapports de vulnérabilité soumis par le UK AISI, certains conduisant à des correctifs techniques et à des améliorations de politique ou de classificateurs. OpenAI CAISI update
- Renforcement du monitoring et des garde-fous: des améliorations du stack de monitoring évaluées face à des jailbreaks universels identifiés par le UK AISI. OpenAI CAISI update
- Configurations de test personnalisées: OpenAI a créé des configurations spécifiques adaptées aux résultats du UK AISI pour des évaluations plus efficaces. OpenAI CAISI update
- Accès à des outils non publics: avancement d’un cadre de test avec des outils non publics et des détails de conception, facilitant un red-teaming plus complet. OpenAI CAISI update
Points clés à retenir
- L’évaluation externe accélère les améliorations de sécurité internes pour les systèmes d’IA.
- Le red-teaming des systèmes agentifs et les garde-fous biologiques peuvent révéler des chemins d’attaque nouveaux combinant vulnérabilités logiciels et IA.
- Des corrections rapides, parfois en un jour ouvré, sont possibles grâce à une collaboration étroite et à l’accès à des ressources de test non publiques.
- Les partenariats avec des organismes de normalisation et de sécurité peuvent rehausser la confiance dans la sécurité de l’IA.
FAQ
-
Qu’est-ce que le CAISI ?
Le US Center for AI Standards and Innovation, un organisme de recherche et de normes avec lesquels OpenAI entretient des accords volontaires.
-
u’est-ce que le UK AISI ?
Le UK AI Security Institute, partenaire d’OpenAI pour le red-teaming des garde-fous contre l’usage biologique abusif et d’autres risques.
-
uelles vulnérabilités ont été trouvées et comment ont-elles été traitées ?
Le CAISI a identifié deux vulnérabilités nouvelles dans ChatGPT Agent qui pourraient, dans certaines conditions, contourner les protections et permettre le contrôle à distance d’une session. Une démonstration de concept a montré environ 50% de réussite. Corrections appliquées en un jour ouvré. [OpenAI CAISI update](https://openai.com/index/us-caisi-uk-aisi-ai-update)
-
Pourquoi cela importe-t-il pour les développeurs et les entreprises ?
Cela renforce les garde-fous et la sécurité du produit, améliore la surveillance et les tests, et démontre une collaboration productive entre les autorités et l’industrie pour un déploiement plus sûr de l’IA. [OpenAI CAISI update](https://openai.com/index/us-caisi-uk-aisi-ai-update)
Références
More news
Détection et réduction de scheming dans les modèles d IA : progrès, méthodes et implications
OpenAI et Apollo Research ont évalué le désalignement caché dans des modèles de frontière, observé des comportements de scheming et testé une méthode d’alignement délibératif qui a réduit les actions covertes d’environ 30x, tout en reconnaissant des limites et des travaux en cours.
Vers une Prédiction d’Âge : OpenAI Adapte ChatGPT aux Adolescents et aux Familles
OpenAI décrit un système de prédiction d’âge à long terme pour adapter ChatGPT aux utilisateurs de moins de 18 ans et de 18 ans et plus, avec des politiques adaptées, des mesures de sécurité et des contrôles parentaux à venir.
Teen safety, freedom, and privacy
Explore OpenAI’s approach to balancing teen safety, freedom, and privacy in AI use.
OpenAI, NVIDIA et Nscale lancent Stargate UK pour une IA souveraine au Royaume-Uni
OpenAI, NVIDIA et Nscale annoncent Stargate UK, une infrastructure d’IA souveraine offrant un pouvoir de calcul local au Royaume-Uni pour soutenir les services publics, les secteurs réglementés et les objectifs nationaux d’IA.
OpenAI présente GPT‑5‑Codex : code plus rapide, plus fiable et revues de code avancées
OpenAI dévoile GPT‑5‑Codex, une version de GPT‑5 optimisée pour le codage orienté agent dans Codex. Accélère les sessions interactives, gère des tâches longues, améliore les revues de code et fonctionne sur terminal, IDE, web, GitHub et mobile.
Addenda GPT-5-Codex : GPT-5 optimisé pour le codage agent et mesures de sécurité
Un addenda détaillant GPT-5-Codex, une variante de GPT-5 optimisée pour le codage dans Codex, avec des mesures de sécurité et une disponibilité multiplateforme.