Diff Risk Score: IA orientada ao risco no desenvolvimento de software da Meta
Sources: https://engineering.fb.com/2025/08/06/developer-tools/diff-risk-score-drs-ai-risk-aware-software-development-meta, engineering.fb.com
Diff Risk Score (DRS) é uma tecnologia com IA desenvolvida pela Meta que prevê a probabilidade de uma mudança de código causar um incidente de produção, também conhecido como SEV. Construído sobre um LLM Llama ajustado, o DRS avalia mudanças de código e metadados para produzir uma pontuação de risco e destacar trechos de código potencialmente arriscados. Hoje, o DRS alimenta várias características orientadas a risco que otimizam a qualidade do produto, a produtividade do desenvolvedor e a eficiência da capacidade computacional. Observa-se, de forma notável, que o DRS ajudou a eliminar grandes congelamentos de código, permitindo que os desenvolvedores implantassem código quando historicamente não conseguiam, com impacto mínimo na experiência do cliente e no negócio.
TL;DR
- O DRS prevê a probabilidade de uma mudança de código causar um incidente de produção (SEV) e destaca trechos de código arriscados.
- É construído em um LLM Llama ajustado e informa fluxos de trabalho orientados a risco ao longo do ciclo de vida do software.
- O DRS viabilizou desbloqueios de código mais seguros em períodos sensíveis e ajudou a registrar 10.000+ mudanças durante um evento de parceiro em 2024 com impacto de produção mínimo.
- A Meta expandiu as ferramentas de risco para a Risk Awareness Platform (RAP) com 19 casos de uso e quatro direções futuras.
- A iniciativa enfatiza explicabilidade, automação futura e cobertura mais ampla de risco, incluindo mudanças de configuração.
Contexto e antecedentes
Desenvolvimento de software na Meta ocorre em escala global, onde incidentes de produção podem degradar a experiência do usuário e os resultados para anunciantes. Historicamente, algumas equipes congelavam grandes partes do código durante períodos sensíveis (por exemplo, a semana de compras Cyber 5) para reduzir risco, mas essa abordagem reduzia a produtividade dos desenvolvedores. O DRS aborda essa tensão ao fornecer uma visão orientada por risco que permite mudanças de menor risco durante períodos de maior risco, mantendo a proteção de sistemas e da experiência do usuário. A motivação por trás do DRS era a crença de que um modelo capaz de prever se uma mudança de código poderia gerar um SEV poderia abrir fluxos de trabalho que melhorassem quase todos os aspectos de escrever e enviar código. Embora o conjunto de casos de uso do DRS seja amplo, uma aplicação prática—o desbloqueio de código—ilustra como ferramentas orientadas a risco podem manter confiabilidade e velocidade.
O que há de novo
O DRS tornou-se um componente central de recursos orientados a risco em Meta, abrangendo desde planejamento até monitoramento pós-lançamento. Ele impulsionou a criação da Risk Awareness Platform (RAP) para fornecer APIs de análise de risco e integrações de ferramentas, permitindo que equipes construam e conectem sinais de risco aos seus fluxos de trabalho diários. Meta visualiza quatro direções importantes para a conscientização de risco no curto prazo:
- Expansão de recursos orientados a risco na Risk Awareness Platform (RAP):
- Inclui otimização de seleção de build/teste, melhoria da confiabilidade, apoio à seleção de revisores e análise de riscos de lançamento. O objetivo é maximizar a taxa de inovação sujeita a um patamar de confiabilidade.
- À medida que o modelo de risco, os dados e a experiência do usuário melhoram, os benefícios reais no mundo aumentam para equipes de produto e anunciantes.
- Ampliar o risco além das mudanças de código para mudanças de configuração:
- Embora mudanças de código respondam pela maioria dos SEVs, mudanças de configuração também representam uma categoria de risco significativa. A RAP está expandindo para prever o risco de várias mudanças de configuração e tende a alimentar famílias de recursos além do DRS.
- Automatizar a mitigação de risco:
- O objetivo é avançar de sinalizar diffs arriscados para gerar proativamente mudanças que mitiguem o risco usando agentes de IA. Isso se aplica a código em movimento (diffs) e código em repouso, e deve operar de forma integrada entre código e mudanças de configuração.
- Aumentar a explicabilidade com saídas em linguagem natural:
- Narrativas amigáveis para humanos explicarão o que as tecnologias de risco estão fazendo e por quê, ajudando engenheiros a mitigar riscos ou fornecer feedback para melhorar a precisão. A explicabilidade de LLM permanece uma área de pesquisa em aberto, com esforços contínuos para responder perguntas comuns.
Por que isso importa (impacto para desenvolvedores/empresas)
- Implantações mais seguras durante períodos de alto risco resultam em menos incidentes de produção e melhor experiência do usuário, mantendo os resultados para o negócio.
- A capacidade de registrar um grande número de mudanças durante janelas anteriormente restritas demonstra um benefício duplo: maior código implantado e menos tempo de engenharia gasto na detecção e mitigação de incidentes.
- O ecossistema RAP centraliza sinais de risco e integrações de ferramentas, permitindo que equipes operem com uma estrutura de risco compartilhada e escalável.
- O trabalho está alinhado ao objetivo mais amplo da Meta de aplicar IA para melhorar todos os aspectos do desenvolvimento de software, desde o planejamento até o monitoramento pós-lançamento.
Detalhes técnicos ou Implementação
- O Diff Risk Score é construído sobre um LLM Llama ajustado e analisa mudanças de código e metadados associados para atribuir uma pontuação de risco e destacar trechos potencialmente arriscados.
- O DRS viabiliza uma variedade de fluxos de trabalho orientados a risco, incluindo desbloqueio de código, seleção de revisores e análise de riscos de lançamento.
- O projeto enfatiza a explicabilidade, com planos futuros de saídas em linguagem natural que descrevem o raciocínio da pontuação de risco e fornecem feedback acionável para melhorar a exatidão.
- Uma visão de quatro direções guia o trabalho contínuo: expandir as capacidades do RAP, estender o risco para mudanças de configuração, automatizar a mitigação de risco e melhorar a explicabilidade.
Principais conclusões
- O DRS demonstra como a IA pode quantificar o risco de produção em mudanças de código e guiar uma entrega mais segura e rápida.
- A Risk Awareness Platform oferece APIs e integrações para escalar a tomada de decisões orientadas ao risco ao longo do ciclo de vida no Meta.
- Quatro direções estratégicas concentram-se em cobertura de risco mais ampla, automação e explicação centrada no humano.
- Impactos reais incluem eliminação de congelamentos de código e a possibilidade de implantar milhares de mudanças durante períodos sensíveis com incidentes mínimos.
FAQ
-
O que é o Diff Risk Score (DRS) e como ele funciona?
O DRS é uma tecnologia alimentada por IA criada pela Meta que prevê a probabilidade de uma mudança de código causar um incidente de produção (SEV). Ele avalia mudanças de código e metadados usando um Llama ajustado para produzir uma pontuação de risco e destacar trechos potencialmente arriscados.
-
Como o DRS afetou o desbloqueio de código e o risco de produção?
O DRS permitiu uma abordagem mais nuanceada para desbloquear código durante períodos sensíveis, permitindo mudanças de menor risco sem aumentar os incidentes, protegendo a experiência do usuário e a produtividade. Em 2024, ajudou a registrar 10.000+ mudanças de código durante um evento de parceiro com impacto de produção mínimo.
-
O que é a Risk Awareness Platform (RAP)?
RAP é uma plataforma criada para fornecer APIs de análise de risco e integrações de ferramentas, apoiando recursos orientados a risco ao longo do ciclo de desenvolvimento.
-
O DRS se aplica também a mudanças de configuração, além de código?
Sim. A Meta está expandindo o risco para mudanças de configuração, com modelos da RAP prevendo o risco de várias mudanças de configuração e alimentando famílias de recursos além do DRS.
Referências
More news
Como reduzir gargalos do KV Cache com NVIDIA Dynamo
O Dynamo da NVIDIA transfere o KV Cache da memória da GPU para armazenamento de custo mais baixo, permitindo janelas de contexto maiores, maior concorrência e menor custo de inferência em grandes modelos.
Reduzindo a Latência de Cold Start para Inferência de LLM com NVIDIA Run:ai Model Streamer
Análise detalhada de como o NVIDIA Run:ai Model Streamer reduz o tempo de cold-start na inferência de LLMs ao transmitir pesos para a memória da GPU, com benchmarks em GP3, IO2 e S3.
Otimize o acesso a alterações de conteúdo ISO-rating com Verisk Rating Insights e Amazon Bedrock
Verisk Rating Insights, impulsionado pelo Amazon Bedrock, LLMs e RAG, oferece uma interface conversacional para acessar mudanças ERC ISO, reduzindo downloads manuais e aumentando a velocidade e a precisão das informações.
Como a msg otimizou a transformação de RH com Amazon Bedrock e msg.ProfileMap
Este post mostra como a msg automatizou a harmonização de dados para o msg.ProfileMap usando o Amazon Bedrock para alimentar fluxos de enriquecimento de dados alimentados por LLM, elevando a precisão na correspondência de conceitos de RH, reduzindo trabalho manual e alinhando-se ao EU AI Act e ao GD
Automatize pipelines RAG avançadas com SageMaker AI da AWS
Aperfeiçoe a experimentação até a produção para Retrieval Augmented Generation (RAG) com SageMaker AI, MLflow e Pipelines, promovendo fluxos reprodutíveis, escaláveis e com governança.
Implante Inferência de IA Escalável com NVIDIA NIM Operator 3.0.0
O NVIDIA NIM Operator 3.0.0 amplia a inferência de IA escalável no Kubernetes, permitindo implantações multi-LLM e multi-nó, integração com KServe e suporte a DRA em modo de tecnologia, com colaboração da Red Hat e NeMo Guardrails.