OpenAI faz parceria com CAISI dos EUA e UK AISI para fortalecer a segurança da IA

TL;DR

OpenAI amplia parcerias voluntárias com o CAISI (Centro de Padrões e Inovação de IA dos EUA) e o UK AISI (Instituto de Segurança de IA do Reino Unido) para fortalecer a implantação segura de IA de fronteira. OpenAI CAISI update
As colaborações incluem red-teaming conjunto de salvaguardas contra uso biológico indevido, testes de ponta a ponta de produtos para questões de segurança e ciclos rápidos de feedback para resolver vulnerabilidades. OpenAI CAISI update
O CAISI identificou duas vulnerabilidades de segurança novas no ChatGPT Agent, com um ataque conceito que poderia contornar proteções com cerca de 50% de sucesso; as falhas foram corrigidas em um dia útil. OpenAI CAISI update
Desde maio, o UK AISI tem realizado red-teaming das salvaguardas contra uso biológico indevido, cobrindo o ChatGPT Agent e o GPT‑5, com cadência semanal e acesso a ferramentas não públicas para acelerar melhorias. OpenAI CAISI update
A colaboração demonstra como governos e indústria podem trabalhar juntos para elevar padrões de segurança e incentivar a adoção responsável da IA.

Contexto e antecedentes

OpenAI observa que desenvolver e implantar IA segura e útil é central para sua missão de garantir que a AGI beneficie toda a humanidade, e que isso requer trabalho contínuo com autoridades nacionais e corpos normativos. OpenAI firmou acordos voluntários com o CAISI (Centro de Padrões e Inovação de IA) e o UK AI Security Institute (UK AISI) como parte de sua abordagem para a implantação segura de IA de fronteira. Esses parceiros refletem a crença de que o desenvolvimento de IA de fronteira deve ocorrer em estreita colaboração com governos aliados, que trazem experiência em aprendizado de máquina, segurança nacional e metrologia. Por mais de um ano, o OpenAI tem parceria com o CAISI para avaliar capacidades de modelos OpenAI em cyber, biosciences e outras áreas relevantes à segurança nacional. OpenAI CAISI update O trabalho com o CAISI complementa o programa de segurança interno da OpenAI e o relacionamento com o UK AISI reforça os esforços anteriores de salvaguardas contra uso biológico indevido. A participação do UK AISI começou em maio com red-teaming das salvaguardas em sistemas da OpenAI, incluindo as salvaguardas no ChatGPT Agent e no GPT‑5, como parte de um programa contínuo, não vinculado a um lançamento específico. A colaboração enfatiza ciclos rápidos de feedback e coordenação próxima entre equipes técnicas. OpenAI CAISI update

O que há de novo

A atualização destaca vários aspectos novos das colaborações CAISI/UK AISI:

Foco em segurança de sistemas agentivos: OpenAI e CAISI realizaram red-teaming de sistemas agentivos da OpenAI, incluindo avaliadores externos que ajudam a identificar e corrigir vulnerabilidades em tempo real. Isso incluiu um passo preliminar para testar abordagens de avaliação de sistemas agentivos. OpenAI CAISI update
Resultado da colaboração de julho: CAISI teve acesso antecipado ao ChatGPT Agent, o que ajudou a entender a arquitetura do sistema e, posteriormente, a realizar red-teaming do sistema lançado. O resultado incluiu a identificação de vulnerabilidades novas e ajustes correspondentes. OpenAI CAISI update
Vulnerabilidades e remediação: CAISI identificou duas vulnerabilidades de segurança novas que, em determinadas condições, poderiam permitir que um atacante sofisticado contornasse salvaguardas e controlasse remotamente a sessão do agente e se passasse por um usuário em outros sites. Um ataque de conceito mostrou uma taxa de sucesso de cerca de 50%. Após o relatório, a OpenAI corrigiu os problemas em um dia útil. O trabalho enfatiza a necessidade de encadear vulnerabilidades tradicionais de software com vulnerabilidades de IA para testar as barreiras. OpenAI CAISI update
Testes biológicos com UK AISI: Como parte da colaboração contínua, o UK AISI iniciou o red-teaming das salvaguardas contra uso biológico em maio (conforme as definições de políticas da OpenAI) em relação ao GPT‑5 e ao ChatGPT Agent. A colaboração usa ciclos iterativos de teste, com reuniões frequentes (aproximadamente semanais) e configurações sob medida para testar fraquezas.
Acesso e ambiente de teste: O UK AISI teve acesso aprofundado a sistemas e recursos de teste não públicos para permitir testes mais profundos, o que ajudou a expor falhas que seriam difíceis de reproduzir por atacantes externos. As equipes trabalharam em ciclos de sondagem, reforço das salvaguardas e reteste. OpenAI CAISI update Juntos, esses esforços resultaram em melhorias em monitoramento, configuração de produtos e aplicação de políticas, beneficiando usuários finais e a segurança de produtos amplamente usados pela OpenAI. A participação do UK AISI também contribuiu para fortalecer o stack completo de moderação. OpenAI CAISI update

Por que isso importa (impacto para desenvolvedores/empresas)

A colaboração com CAISI e UK AISI sinaliza uma abordagem de segurança em várias camadas, combinando avaliação externa com endurecimento interno. Validando capacidades agentivas, testando salvaguardas contra mau uso e respondendo rapidamente a vulnerabilidades identificadas, a OpenAI busca elevar padrões da indústria e aumentar a confiança na implantação de IA. Como a OpenAI observa, parcerias técnicas próximas com organizações qualificadas para avaliar sistemas de IA ajudam a fortalecer a confiança na segurança desses sistemas para usuários e empresas. OpenAI CAISI update Para desenvolvedores e empresas, as implicações incluem salvaguardas mais robustas em produtos baseados em IA agentiva, melhoria de monitoramento e moderação, e rapidez na correção de vulnerabilidades. A colaboração contínua também demonstra como governos, órgãos de normas e indústria podem trabalhar juntos para avaliar, melhorar e implantar IA de fronteira com responsabilidade. OpenAI CAISI update

Detalhes técnicos ou Implementação

O programa conjunto combina testes de cibersegurança tradicionais com red-teaming específico de IA, gerando melhorias concretas em salvaguardas e na segurança do produto. Principais elementos:

Red-teaming dual: expertise de CAISI em cibersegurança e segurança de IA aplicada a sistemas agentivos, incluindo avaliação externa do ChatGPT Agent. OpenAI CAISI update
Testes de ponta a ponta: avaliação de configurações de produto e respostas do sistema, abordando vulnerabilidades que poderiam emergir desde a saída do modelo até a experiência do usuário. OpenAI CAISI update
Triagem rápida de vulnerabilidades: UK AISI contribuiu para um ciclo de feedback rápido, apresentando mais de uma dúzia de relatórios de vulnerabilidades, com alguns levando a correções de engenharia e melhorias de políticas ou de classificadores. OpenAI CAISI update
Fortalecimento de monitoramento e salvaguardas: melhorias no stack de monitoramento avaliadas contra jailbreaks universais identificados pelo UK AISI, fortalecendo detecção e mitigação. OpenAI CAISI update
Configurações de teste personalizadas: OpenAI criou configurações de teste sob medida com base nos resultados do UK AISI para viabilizar avaliações mais eficazes. OpenAI CAISI update
Recursos de teste não públicos: a colaboração permitiu acesso a ferramentas não públicas e a detalhes de design que ajudam a realizar red-teaming mais completo. OpenAI CAISI update
Salvaguardas mais fortes: o trabalho reforça salvaguardas de mitigação de riscos, incluindo considerações sobre salvaguardas biológicas, com testes abrangentes entre várias camadas de proteção. OpenAI CAISI update

Principais aprendizados

Avaliação externa acelera melhorias de segurança internas para sistemas de IA.
Red-teaming de IA agentiva e salvaguardas biológicas podem revelar caminhos de ataque novos que combinam vulnerabilidades de software tradicional com fraquezas de IA.
Triagem rápida e correções, muitas vezes em um dia útil, são possíveis com colaboração próxima e acesso a recursos de teste não públicos.
Parcerias com corpos normativos e institutos de segurança podem elevar a confiança na segurança da IA.

FAQ

O que é o CAISI?

O CAISI é o US Center for AI Standards and Innovation, um órgão de pesquisa e normas com o qual a OpenAI tem acordos voluntários.
O que é o UK AISI?

O UK AI Security Institute, parceiro de OpenAI para red-teaming de salvaguardas contra uso biológico indevido e outras áreas de risco.
uais vulnerabilidades foram encontradas e como foram tratadas?

O CAISI identificou duas vulnerabilidades novas no ChatGPT Agent que, em determinadas condições, poderiam contornar salvaguardas e permitir controle remoto de sessões. Um ataque de prova de conceito mostrou cerca de 50% de taxa de sucesso. Correções aplicadas em um dia útil. [OpenAI CAISI update](https://openai.com/index/us-caisi-uk-aisi-ai-update)
Por que isso é importante para desenvolvedores e empresas?

colaboração fortalece salvaguardas e a segurança do produto, melhora o monitoramento e os testes, e demonstra cooperação entre governo e indústria para implantação mais segura de IA. [OpenAI CAISI update](https://openai.com/index/us-caisi-uk-aisi-ai-update)