OpenAI faz parceria com CAISI dos EUA e UK AISI para fortalecer a segurança da IA
Sources: https://openai.com/index/us-caisi-uk-aisi-ai-update, OpenAI
TL;DR
- OpenAI amplia parcerias voluntárias com o CAISI (Centro de Padrões e Inovação de IA dos EUA) e o UK AISI (Instituto de Segurança de IA do Reino Unido) para fortalecer a implantação segura de IA de fronteira. OpenAI CAISI update
- As colaborações incluem red-teaming conjunto de salvaguardas contra uso biológico indevido, testes de ponta a ponta de produtos para questões de segurança e ciclos rápidos de feedback para resolver vulnerabilidades. OpenAI CAISI update
- O CAISI identificou duas vulnerabilidades de segurança novas no ChatGPT Agent, com um ataque conceito que poderia contornar proteções com cerca de 50% de sucesso; as falhas foram corrigidas em um dia útil. OpenAI CAISI update
- Desde maio, o UK AISI tem realizado red-teaming das salvaguardas contra uso biológico indevido, cobrindo o ChatGPT Agent e o GPT‑5, com cadência semanal e acesso a ferramentas não públicas para acelerar melhorias. OpenAI CAISI update
- A colaboração demonstra como governos e indústria podem trabalhar juntos para elevar padrões de segurança e incentivar a adoção responsável da IA.
Contexto e antecedentes
OpenAI observa que desenvolver e implantar IA segura e útil é central para sua missão de garantir que a AGI beneficie toda a humanidade, e que isso requer trabalho contínuo com autoridades nacionais e corpos normativos. OpenAI firmou acordos voluntários com o CAISI (Centro de Padrões e Inovação de IA) e o UK AI Security Institute (UK AISI) como parte de sua abordagem para a implantação segura de IA de fronteira. Esses parceiros refletem a crença de que o desenvolvimento de IA de fronteira deve ocorrer em estreita colaboração com governos aliados, que trazem experiência em aprendizado de máquina, segurança nacional e metrologia. Por mais de um ano, o OpenAI tem parceria com o CAISI para avaliar capacidades de modelos OpenAI em cyber, biosciences e outras áreas relevantes à segurança nacional. OpenAI CAISI update O trabalho com o CAISI complementa o programa de segurança interno da OpenAI e o relacionamento com o UK AISI reforça os esforços anteriores de salvaguardas contra uso biológico indevido. A participação do UK AISI começou em maio com red-teaming das salvaguardas em sistemas da OpenAI, incluindo as salvaguardas no ChatGPT Agent e no GPT‑5, como parte de um programa contínuo, não vinculado a um lançamento específico. A colaboração enfatiza ciclos rápidos de feedback e coordenação próxima entre equipes técnicas. OpenAI CAISI update
O que há de novo
A atualização destaca vários aspectos novos das colaborações CAISI/UK AISI:
- Foco em segurança de sistemas agentivos: OpenAI e CAISI realizaram red-teaming de sistemas agentivos da OpenAI, incluindo avaliadores externos que ajudam a identificar e corrigir vulnerabilidades em tempo real. Isso incluiu um passo preliminar para testar abordagens de avaliação de sistemas agentivos. OpenAI CAISI update
- Resultado da colaboração de julho: CAISI teve acesso antecipado ao ChatGPT Agent, o que ajudou a entender a arquitetura do sistema e, posteriormente, a realizar red-teaming do sistema lançado. O resultado incluiu a identificação de vulnerabilidades novas e ajustes correspondentes. OpenAI CAISI update
- Vulnerabilidades e remediação: CAISI identificou duas vulnerabilidades de segurança novas que, em determinadas condições, poderiam permitir que um atacante sofisticado contornasse salvaguardas e controlasse remotamente a sessão do agente e se passasse por um usuário em outros sites. Um ataque de conceito mostrou uma taxa de sucesso de cerca de 50%. Após o relatório, a OpenAI corrigiu os problemas em um dia útil. O trabalho enfatiza a necessidade de encadear vulnerabilidades tradicionais de software com vulnerabilidades de IA para testar as barreiras. OpenAI CAISI update
- Testes biológicos com UK AISI: Como parte da colaboração contínua, o UK AISI iniciou o red-teaming das salvaguardas contra uso biológico em maio (conforme as definições de políticas da OpenAI) em relação ao GPT‑5 e ao ChatGPT Agent. A colaboração usa ciclos iterativos de teste, com reuniões frequentes (aproximadamente semanais) e configurações sob medida para testar fraquezas.
- Acesso e ambiente de teste: O UK AISI teve acesso aprofundado a sistemas e recursos de teste não públicos para permitir testes mais profundos, o que ajudou a expor falhas que seriam difíceis de reproduzir por atacantes externos. As equipes trabalharam em ciclos de sondagem, reforço das salvaguardas e reteste. OpenAI CAISI update Juntos, esses esforços resultaram em melhorias em monitoramento, configuração de produtos e aplicação de políticas, beneficiando usuários finais e a segurança de produtos amplamente usados pela OpenAI. A participação do UK AISI também contribuiu para fortalecer o stack completo de moderação. OpenAI CAISI update
Por que isso importa (impacto para desenvolvedores/empresas)
A colaboração com CAISI e UK AISI sinaliza uma abordagem de segurança em várias camadas, combinando avaliação externa com endurecimento interno. Validando capacidades agentivas, testando salvaguardas contra mau uso e respondendo rapidamente a vulnerabilidades identificadas, a OpenAI busca elevar padrões da indústria e aumentar a confiança na implantação de IA. Como a OpenAI observa, parcerias técnicas próximas com organizações qualificadas para avaliar sistemas de IA ajudam a fortalecer a confiança na segurança desses sistemas para usuários e empresas. OpenAI CAISI update Para desenvolvedores e empresas, as implicações incluem salvaguardas mais robustas em produtos baseados em IA agentiva, melhoria de monitoramento e moderação, e rapidez na correção de vulnerabilidades. A colaboração contínua também demonstra como governos, órgãos de normas e indústria podem trabalhar juntos para avaliar, melhorar e implantar IA de fronteira com responsabilidade. OpenAI CAISI update
Detalhes técnicos ou Implementação
O programa conjunto combina testes de cibersegurança tradicionais com red-teaming específico de IA, gerando melhorias concretas em salvaguardas e na segurança do produto. Principais elementos:
- Red-teaming dual: expertise de CAISI em cibersegurança e segurança de IA aplicada a sistemas agentivos, incluindo avaliação externa do ChatGPT Agent. OpenAI CAISI update
- Testes de ponta a ponta: avaliação de configurações de produto e respostas do sistema, abordando vulnerabilidades que poderiam emergir desde a saída do modelo até a experiência do usuário. OpenAI CAISI update
- Triagem rápida de vulnerabilidades: UK AISI contribuiu para um ciclo de feedback rápido, apresentando mais de uma dúzia de relatórios de vulnerabilidades, com alguns levando a correções de engenharia e melhorias de políticas ou de classificadores. OpenAI CAISI update
- Fortalecimento de monitoramento e salvaguardas: melhorias no stack de monitoramento avaliadas contra jailbreaks universais identificados pelo UK AISI, fortalecendo detecção e mitigação. OpenAI CAISI update
- Configurações de teste personalizadas: OpenAI criou configurações de teste sob medida com base nos resultados do UK AISI para viabilizar avaliações mais eficazes. OpenAI CAISI update
- Recursos de teste não públicos: a colaboração permitiu acesso a ferramentas não públicas e a detalhes de design que ajudam a realizar red-teaming mais completo. OpenAI CAISI update
- Salvaguardas mais fortes: o trabalho reforça salvaguardas de mitigação de riscos, incluindo considerações sobre salvaguardas biológicas, com testes abrangentes entre várias camadas de proteção. OpenAI CAISI update
Principais aprendizados
- Avaliação externa acelera melhorias de segurança internas para sistemas de IA.
- Red-teaming de IA agentiva e salvaguardas biológicas podem revelar caminhos de ataque novos que combinam vulnerabilidades de software tradicional com fraquezas de IA.
- Triagem rápida e correções, muitas vezes em um dia útil, são possíveis com colaboração próxima e acesso a recursos de teste não públicos.
- Parcerias com corpos normativos e institutos de segurança podem elevar a confiança na segurança da IA.
FAQ
-
O que é o CAISI?
O CAISI é o US Center for AI Standards and Innovation, um órgão de pesquisa e normas com o qual a OpenAI tem acordos voluntários.
-
O que é o UK AISI?
O UK AI Security Institute, parceiro de OpenAI para red-teaming de salvaguardas contra uso biológico indevido e outras áreas de risco.
-
uais vulnerabilidades foram encontradas e como foram tratadas?
O CAISI identificou duas vulnerabilidades novas no ChatGPT Agent que, em determinadas condições, poderiam contornar salvaguardas e permitir controle remoto de sessões. Um ataque de prova de conceito mostrou cerca de 50% de taxa de sucesso. Correções aplicadas em um dia útil. [OpenAI CAISI update](https://openai.com/index/us-caisi-uk-aisi-ai-update)
-
Por que isso é importante para desenvolvedores e empresas?
colaboração fortalece salvaguardas e a segurança do produto, melhora o monitoramento e os testes, e demonstra cooperação entre governo e indústria para implantação mais segura de IA. [OpenAI CAISI update](https://openai.com/index/us-caisi-uk-aisi-ai-update)
Referências
More news
Deteção e redução de scheming em modelos de IA: avanços, métodos e implicações
OpenAI e Apollo Research avaliaram desalineação oculta em modelos de fronteira, observaram comportamentos de scheming e testaram um método de alinhamento deliberativo que reduziu ações encobertas em cerca de 30x, com limitações e trabalhos em andamento.
Teen safety, freedom, and privacy
Explore OpenAI’s approach to balancing teen safety, freedom, and privacy in AI use.
Rumo à Predição de Idade: OpenAI Adapta o ChatGPT para Adolescentes e Famílias
OpenAI descreve um sistema de longo prazo de predição de idade para adaptar o ChatGPT a usuários com menos de 18 anos e adultos, com políticas apropriadas por faixa etária, salvaguardas de segurança e controles parentais.
OpenAI, NVIDIA e Nscale apresentam Stargate UK para Infraestrutura de IA Soberana no Reino Unido
OpenAI, NVIDIA e Nscale anunciam Stargate UK, uma parceria de infraestrutura de IA soberana que oferece poder de computação local no Reino Unido para apoiar serviços públicos, setores regulados e metas nacionais de IA.
OpenAI apresenta GPT-5-Codex: assistente de codificação mais rápido, confiável e com revisões de código avançadas
A OpenAI apresenta o GPT‑5‑Codex, uma versão do GPT‑5 otimizada para codificação guiada por agentes no Codex. Acelera trabalhos interativos, gerencia tarefas longas, aprimora revisões de código e funciona no terminal, IDE, web, GitHub e mobile.
Adendo ao GPT-5-Codex: GPT-5 Otimizado para Codificação com Medidas de Segurança
Um adendo detalhando o GPT-5-Codex, uma variante do GPT-5 otimizada para codificação em Codex, com mitigação de segurança e disponibilidade multiplataforma.