Diff Risk Score: IA orientada ao risco no desenvolvimento de software da Meta

Diff Risk Score (DRS) é uma tecnologia com IA desenvolvida pela Meta que prevê a probabilidade de uma mudança de código causar um incidente de produção, também conhecido como SEV. Construído sobre um LLM Llama ajustado, o DRS avalia mudanças de código e metadados para produzir uma pontuação de risco e destacar trechos de código potencialmente arriscados. Hoje, o DRS alimenta várias características orientadas a risco que otimizam a qualidade do produto, a produtividade do desenvolvedor e a eficiência da capacidade computacional. Observa-se, de forma notável, que o DRS ajudou a eliminar grandes congelamentos de código, permitindo que os desenvolvedores implantassem código quando historicamente não conseguiam, com impacto mínimo na experiência do cliente e no negócio.

TL;DR

O DRS prevê a probabilidade de uma mudança de código causar um incidente de produção (SEV) e destaca trechos de código arriscados.
É construído em um LLM Llama ajustado e informa fluxos de trabalho orientados a risco ao longo do ciclo de vida do software.
O DRS viabilizou desbloqueios de código mais seguros em períodos sensíveis e ajudou a registrar 10.000+ mudanças durante um evento de parceiro em 2024 com impacto de produção mínimo.
A Meta expandiu as ferramentas de risco para a Risk Awareness Platform (RAP) com 19 casos de uso e quatro direções futuras.
A iniciativa enfatiza explicabilidade, automação futura e cobertura mais ampla de risco, incluindo mudanças de configuração.

Contexto e antecedentes

Desenvolvimento de software na Meta ocorre em escala global, onde incidentes de produção podem degradar a experiência do usuário e os resultados para anunciantes. Historicamente, algumas equipes congelavam grandes partes do código durante períodos sensíveis (por exemplo, a semana de compras Cyber 5) para reduzir risco, mas essa abordagem reduzia a produtividade dos desenvolvedores. O DRS aborda essa tensão ao fornecer uma visão orientada por risco que permite mudanças de menor risco durante períodos de maior risco, mantendo a proteção de sistemas e da experiência do usuário. A motivação por trás do DRS era a crença de que um modelo capaz de prever se uma mudança de código poderia gerar um SEV poderia abrir fluxos de trabalho que melhorassem quase todos os aspectos de escrever e enviar código. Embora o conjunto de casos de uso do DRS seja amplo, uma aplicação prática—o desbloqueio de código—ilustra como ferramentas orientadas a risco podem manter confiabilidade e velocidade.

O que há de novo

O DRS tornou-se um componente central de recursos orientados a risco em Meta, abrangendo desde planejamento até monitoramento pós-lançamento. Ele impulsionou a criação da Risk Awareness Platform (RAP) para fornecer APIs de análise de risco e integrações de ferramentas, permitindo que equipes construam e conectem sinais de risco aos seus fluxos de trabalho diários. Meta visualiza quatro direções importantes para a conscientização de risco no curto prazo:

Expansão de recursos orientados a risco na Risk Awareness Platform (RAP):

Inclui otimização de seleção de build/teste, melhoria da confiabilidade, apoio à seleção de revisores e análise de riscos de lançamento. O objetivo é maximizar a taxa de inovação sujeita a um patamar de confiabilidade.
À medida que o modelo de risco, os dados e a experiência do usuário melhoram, os benefícios reais no mundo aumentam para equipes de produto e anunciantes.

Ampliar o risco além das mudanças de código para mudanças de configuração:

Embora mudanças de código respondam pela maioria dos SEVs, mudanças de configuração também representam uma categoria de risco significativa. A RAP está expandindo para prever o risco de várias mudanças de configuração e tende a alimentar famílias de recursos além do DRS.

Automatizar a mitigação de risco:

O objetivo é avançar de sinalizar diffs arriscados para gerar proativamente mudanças que mitiguem o risco usando agentes de IA. Isso se aplica a código em movimento (diffs) e código em repouso, e deve operar de forma integrada entre código e mudanças de configuração.

Aumentar a explicabilidade com saídas em linguagem natural:

Narrativas amigáveis para humanos explicarão o que as tecnologias de risco estão fazendo e por quê, ajudando engenheiros a mitigar riscos ou fornecer feedback para melhorar a precisão. A explicabilidade de LLM permanece uma área de pesquisa em aberto, com esforços contínuos para responder perguntas comuns.

Por que isso importa (impacto para desenvolvedores/empresas)

Implantações mais seguras durante períodos de alto risco resultam em menos incidentes de produção e melhor experiência do usuário, mantendo os resultados para o negócio.
A capacidade de registrar um grande número de mudanças durante janelas anteriormente restritas demonstra um benefício duplo: maior código implantado e menos tempo de engenharia gasto na detecção e mitigação de incidentes.
O ecossistema RAP centraliza sinais de risco e integrações de ferramentas, permitindo que equipes operem com uma estrutura de risco compartilhada e escalável.
O trabalho está alinhado ao objetivo mais amplo da Meta de aplicar IA para melhorar todos os aspectos do desenvolvimento de software, desde o planejamento até o monitoramento pós-lançamento.

Detalhes técnicos ou Implementação

O Diff Risk Score é construído sobre um LLM Llama ajustado e analisa mudanças de código e metadados associados para atribuir uma pontuação de risco e destacar trechos potencialmente arriscados.
O DRS viabiliza uma variedade de fluxos de trabalho orientados a risco, incluindo desbloqueio de código, seleção de revisores e análise de riscos de lançamento.
O projeto enfatiza a explicabilidade, com planos futuros de saídas em linguagem natural que descrevem o raciocínio da pontuação de risco e fornecem feedback acionável para melhorar a exatidão.
Uma visão de quatro direções guia o trabalho contínuo: expandir as capacidades do RAP, estender o risco para mudanças de configuração, automatizar a mitigação de risco e melhorar a explicabilidade.

Principais conclusões

O DRS demonstra como a IA pode quantificar o risco de produção em mudanças de código e guiar uma entrega mais segura e rápida.
A Risk Awareness Platform oferece APIs e integrações para escalar a tomada de decisões orientadas ao risco ao longo do ciclo de vida no Meta.
Quatro direções estratégicas concentram-se em cobertura de risco mais ampla, automação e explicação centrada no humano.
Impactos reais incluem eliminação de congelamentos de código e a possibilidade de implantar milhares de mudanças durante períodos sensíveis com incidentes mínimos.

FAQ

O que é o Diff Risk Score (DRS) e como ele funciona?

O DRS é uma tecnologia alimentada por IA criada pela Meta que prevê a probabilidade de uma mudança de código causar um incidente de produção (SEV). Ele avalia mudanças de código e metadados usando um Llama ajustado para produzir uma pontuação de risco e destacar trechos potencialmente arriscados.
Como o DRS afetou o desbloqueio de código e o risco de produção?

O DRS permitiu uma abordagem mais nuanceada para desbloquear código durante períodos sensíveis, permitindo mudanças de menor risco sem aumentar os incidentes, protegendo a experiência do usuário e a produtividade. Em 2024, ajudou a registrar 10.000+ mudanças de código durante um evento de parceiro com impacto de produção mínimo.
O que é a Risk Awareness Platform (RAP)?

RAP é uma plataforma criada para fornecer APIs de análise de risco e integrações de ferramentas, apoiando recursos orientados a risco ao longo do ciclo de desenvolvimento.
O DRS se aplica também a mudanças de configuração, além de código?

Sim. A Meta está expandindo o risco para mudanças de configuração, com modelos da RAP prevendo o risco de várias mudanças de configuração e alimentando famílias de recursos além do DRS.