Como a Meta Mantém Seu Hardware de IA Confiável: Detecção e Mitigação de Neutralizações Silenciosas de Dados

TL;DR

A infraestrutura de IA da Meta abrange uma grande quantidade de componentes de hardware e servidores, conectados por uma malha de rede global, com arquiteturas de armazenamento, computação e rede, além de aplicações PyTorch para treino e inferência.
Desde 2018, a Meta identificou e mitigou modos de falha únicos em discos, CPUs, memórias, switches, GPUs, ASICs e redes, levando a indústria a compreender melhor a confiabilidade de hardware em ambientes de escala hyperscale.
O treinamento de modelos em larga escala depende de milhares de aceleradores em um ambiente síncrono; qualquer falha de componente pode interromper o treinamento, tornando essencial a detecção, triagem e reinicialização rápida com hardware saudável.
Neutralizações silenciosas de dados (SDCs) são particularmente desafiadoras, pois sofrem computação incorreta sem traços detectáveis, exigindo telemetria extensa e detecção sofisticada em infraestrutura de IA e não-IA. SDCs podem impactar significativamente o treinamento e a inferência em escala.
A Meta utiliza mecanismos de detecção descritos em seus trabalhos de pesquisa e emprega estratégias de mitigação que abrangem infraestrutura e pilha de software, com processos produzidos em toda a frota e melhorias contínuas em telemetria e manejo de falhas. Veja os trabalhos referenciados para contexto sobre as abordagens de detecção: Detecting Silent Errors in the Wild e Hardware Sentinel.

Contexto e antecedentes

A infraestrutura de IA da Meta é composta por um grande conjunto de componentes de hardware e servidores interconectados por uma rede global de data centers distribuídos. Essa configuração integra armazenamento, computação e redes com sistemas de arquivos proprietários e aplicações PyTorch adaptadas para cargas de trabalho de treino ou inferência. Esse ecossistema sustenta o treinamento de modelos em grande escala, bem como aplicações avançadas de IA, como geração de texto para imagem e segmentação de objetos. Desde 2018, a jornada de confiabilidade de hardware da Meta revelou modos de falha únicos em discos, CPUs, memórias, switches, GPUs, ASICs e redes. Essas descobertas frequentemente colocam a Meta na vanguarda do entendimento de modos de falha de hardware em escala hiperescalar. Para manter operações estáveis e disponibilidade para bilhões de usuários e milhares de casos de uso internos, a Meta desenvolveu políticas e procedimentos de mitigação. À medida que clusters de IA maiores são construídos, entender falhas de hardware e estratégias de mitigação continua sendo crucial para o treinamento confiável de modelos em grande escala. O treino de modelos grandes envolve milhares de aceleradores operando em um ambiente sincronizado. Uma única falha de componente pode interromper o treinamento. A Meta enfatiza a redução de falhas de hardware durante o treinamento por meio de detecção robusta, diagnóstico e reinicialização rápida com servidores e aceleradores saudáveis. Isso exige categorização de falhas, triagem de dispositivos, seleção de nós, validação de clusters e restauração a partir de pontos de checagem. A experiência com o conjunto de modelos Llama 3 mostra que falhas de hardware em componentes como SRAMs, HBMs, grades de processamento e hardware de switches de rede afetam significativamente a confiabilidade de clusters de IA. Em contextos de IA, mais de 66% das interrupções de treinamento foram atribuídas a tais falhas. Desafios adicionais incluem que aceleradores podem ser menos confiáveis que CPUs pela complexidade e telemetry limitada, complexidade de rede que pode resultar em atribuição incorreta de falhas e erros na pilha de software da GPU que podem exigir configuração extensa para corrigir. Reduzir falhas de hardware e de configuração aumenta a eficiência dos clusters. As falhas observadas podem ser classificadas em três categorias amplas:

Falhas estáticas

Dispositivos que ligam ou desligam de forma binária; falhas estáticas são fáceis de identificar em grandes frotas. Se dispositivos não ligam ou não enumeram, verificações de saúde simples confirmam presença e configurações. Conforme a configuração e a escala aumentam, essas falhas ocorrem com maior frequência, mas são gerenciáveis na escala.

Erros transitórios

Erros reproduzíveis apenas sob condições específicas, incluindo falhas dependentes de carga, aquecimento ou falhas aleatórias não corrigíveis. A mitigação envolve entender as condições de manifestação e usar a escala maior para triagem e correspondência de padrões, instalando armadilhas para essas condições. Avanços em telemetria de RAS em infraestrutura hiperscale melhoraram bastante esse processo. Fatores como sensibilidade à carga de trabalho, faixa de temperatura, frequência e parâmetros de fabricação influenciam esses erros. A mitigação pode envolver induzir condições com cargas de trabalho artificiais em estágios não produtivos para tornar as falhas mais repetíveis. Além disso, capturar estados transitórios como valores de estado “pegajosos” oferece indicações telemétricas de falhas de hardware.

SDCs (neutralizações silenciosas de dados)

SDCs ocorrem quando o hardware produz resultados incorretos sem deixar traços detectáveis, levando aplicações a consumirem saídas erradas. Esses erros, muitas vezes decorrentes de defeitos de silício, podem permanecer despercebidos por longos períodos, a menos que desvios significativos sejam observados. Detectar SDCs requer engenharia extensa e telemetria cara para rastrear a corrupção de dados até dispositivos específicos. Casos de estudo, incluindo falhas que levaram a linhas ausentes em aplicações Spark, ilustram a prevalência de falhas silenciosas em infraestruturas de escala hyperscale. Historicamente, correções de bit-flips associados a erros suaves caíram para cerca de uma falha por milhão de dispositivos; com maior densidade de silício em aceleradores, as SDCs agora ocorrem em cerca de uma falha por mil dispositivos, muito acima de falhas induzidas por radiação cósmica. SDCs apresentam desafios únicos pela dependência de dados, gerando um espaço de teste exponencial para todos os valores de dados possíveis. Elas também dependem de três fatores de hardware: tensão, frequência e temperatura de operação, além do ciclo de vida. Por exemplo, uma falha pode ocorrer apenas meses após a utilização, indicando um estado de desgaste. Assim, é necessário testar de forma consistente, periódica e frequente dentro de um espaço de estados aleatórios ao longo do ciclo de vida do dispositivo para identificar essas imprecisões. Para proteger aplicações de SDCs, a Meta emprega várias estratégias de detecção, conforme descrito nos trabalhos citados. Combinadas, essas três abordagens oferecem uma das melhores coberturas de frota em escala para detectar e proteger a infraestrutura contra SDCs. Essas metodologias são aplicadas ao longo da frota e são plenamente operacionalizadas em larga escala, detectando SDCs tanto em IA quanto em infraestrutura não-IA. No entanto, aplicações de IA, como treino e inferência, possuem implicações únicas e mais desafiadoras para SDCs. Em treinos, SDCs levam a cálculos incorretos nos passes forward e backward, provocando divergência do caminho de treinamento pretendido e afetando a eficácia do treino. Embora haja quem veja cargas de IA como intrinsecamente resilientes a SDCs, isso só se aplica a um conjunto limitado de manifestações; SDCs tendem a persistir entre iterações, e a quantização dos valores de dados no treino de IA aumenta a informação por bit, agravando a divergência. Em termos de cenários de treinamento, duas situações comuns de divergência devido a SDCs são:

Propagação de NaN: uma SDC transforma um valor representável em uma representação incorreta, gerando NaN durante os cálculos de treino. Uma vez criados NaN, eles se propagam por passes subsequentes e podem levar a uma paralisação de toda a cluster quando a fonte é difícil de rastrear dentro de uma operação em larga escala. Identificar e isolarem o acelerador e os nós ofensivos torna-se necessário para resolver o problema.
Variação de gradiente corrompida: uma SDC afeta cálculos de gradiente, levando explosões ou implosões de gradiente, ou mínimos locais. Valores corrompidos podem ainda estar dentro de limites numéricos, sendo erroneamente tratados como corretos, o que gera progresso aparente sem melhoria real. Com o tempo, SDCs podem se agregar, causando divergência significativa nos gradientes e potencialmente prendendo o algoritmo em mínimos locais ou provocando explosões/implosões de gradiente. Detectar essas SDCs é desafiador pela sua sutileza e pelo tempo necessário para observar seus efeitos, que pode levar semanas ou meses. Diferentemente da propagação de NaN, essas corrupções são mais difíceis de rastrear porque não disparam gatilhos de NaN. Como resultado, SDCs podem levar a uso computacional ineficiente por longos períodos, tornando o treinamento arriscado até que o dispositivo ofensivo seja identificado e isolado. Para inferência, SDCs produzem resultados incorretos que, pela escala das operações, afetam milhares de consumidores de inferência. SDCs persistentes podem impactar decisões de sistemas como recomendações ou saídas de LLMs, e podem contornar políticas de privacidade ou integridade, pois não seguem as mesmas fronteiras de dados. Consequentemente, as inferências corrompidas reduzem a eficácia de modelos treinados com recursos computacionais significativos, tornando casos de uso de inferência aparentemente benignos problemáticos em escala. SDCs em clusters de treino e inferência criam cenários de depuração complexos entre milhares de componentes. No treino, falhas visíveis interrompem o cluster, mas SDCs criam uma ilusão de progresso, ofuscando a fonte da falha. A propagação de NaN exige identificar o nó ofensivo; caso contrário, reinicializações a partir de pontos de verificação falharão. A variação de gradiente corrompida prolonga a ilusão até que as variações se agreguem, tornando reinicializações subsequentes ineficazes. Já na inferência, a triagem envolve telemetria cara em cada subestágio. Até que o nó ofensivo seja identificado, a inferência não pode ser utilizada, colocando em risco a confiabilidade. Embora detecção de desvios grandes seja mais fácil com detectores de anomalias, desvios menores exigem depuração extensa, envolvendo centenas de engenheiros e interrompendo casos de uso de produção. As estratégias de mitigação que a Meta utiliza para lidar com SDCs em cargas de treino de IA são classificadas em duas categorias de nível de infraestrutura e de stack. Estas são aplicadas durante a triagem operacional no cluster e se concentram em gerenciar e mitigar a falha real e a propagação de SDCs. Além disso, a disponibilidade de telemetria e diagnósticos reside em várias camadas da pilha de tecnologia, permitindo uma resposta mais ágil a ocorrências de falhas.

O que há de novo

A abordagem de confiabilidade da Meta integra um conjunto de inovações para combater SDCs e outras falhas de hardware em ambientes de IA em escala hyperscale. Elementos-chave incluem:

Detecção produzida e integrada em toda a frota para falhas silenciosas, válida para cargas de IA e não-IA, apoiada por instrumentação ampliada e telemetria.
Dois mecanismos de detecção mencionados nos trabalhos da Meta (Detecting Silent Errors in the Wild e Hardware Sentinel), que proporcionam cobertura robusta em toda a frota com escala.
Telemetria avançada de RAS que reforça o triage de falhas, incluindo a captura de estados transitórios e o uso de valores de estado pegajosos para indicar condições de falha ao longo do tempo.
A capacidade de induzir condições de falha com cargas de trabalho artificiais em ambientes não produtivos para tornar as falhas mais repetíveis, facilitando triagem e reparo.
Processos de triagem estruturados e escaláveis, incluindo triagem de dispositivos, seleção de nós, validação de cluster e restauração a partir de pontos de checagem, para minimizar o tempo de inatividade durante reinícios de treino.
Enfoque em entender como sensibilidade de carga de trabalho, temperatura, frequência e parâmetros de fabricação influenciam as falhas e como gerenciá-los para reduzir falhas.
Aproveitar os desafios únicos apresentados por aceleradores, complexidade de rede e pilha de software da GPU com mitigação direcionada para reduzir seu impacto na confiabilidade do treino.
A mensagem central é que as SDCs são uma ameaça persistente, dependente de dados, em ambientes de IA em escala, e que telemetria de alto nível, triagem sistemática e testes proativos são essenciais para manter treino e inferência estáveis.

Por que isso importa

Para desenvolvedores e empresas que constroem e implementam grandes sistemas de IA, a confiabilidade de hardware é crucial para o desempenho do treino, custo e qualidade do modelo. SDCs ameaçam a eficácia do treino, introduzindo erros não detectados que se acumulam e dificultam a depuração entre milhares de componentes. Na inferência, SDCs podem produzir saídas incorretas que afetam milhões de consumidores e decisões automatizadas. A abordagem da Meta ilustra que deployments de IA em escala exigem detecção de falhas, telemetria detalhada e práticas de teste deliberadas para identificar, isolar e mitigar falhas de hardware rapidamente. Ao classificar falhas em estáticas, transitórias e SDCs, e ao aplicar mitigação em infraestrutura e pilha de software, é possível reduzir o tempo de reparo, minimizar iterações de treino desperdiçadas e manter capacidade confiável para uso de produção em larga escala.

Detalhes técnicos ou Implementação

Os componentes a seguir resumem a taxonomia de falhas da Meta e a estratégia de mitigação, refletindo a implementação prática em um ambiente de IA em escala hyperscale:

Taxonomia de falhas:
Falhas estáticas: estado binário (ligado/desligado); triagem direta com checagens de saúde.
Erros transitórios: dependentes de carga, térmicos ou erros não corrigíveis; mitigação via correspondência de padrões, testes controlados e indução de condições em estágios não produtivos.
SDCs: cálculos incorretos sem sinais detectáveis; detectados por telemetria especializada e análise; requerem isolamento da fonte e restauração a partir de estados de checagem.
Telemetria e detecção:
Telemetria expandida para rastrear falhas em aceleradores, hosts e caminhos de rede; uso de valores de estado pegajosos para indicar persistência de falhas.
Abordagens de detecção descritas nos trabalhos citados, para ampliar a cobertura da frota (Detecting Silent Errors in the Wild e Hardware Sentinel).
Ferramentas de software e hardware trabalham em conjunto para identificar o nó ou acelerador ofensivo e colocá-lo em quarentena enquanto a cluster opera.
Mitigação e triagem:
Triagem em cluster envolve triagem de dispositivos, seleção de nós, validação de cluster e restauração por meio de pontos de checagem para recuperar tempo de treino com interrupção mínima.
Políticas de mitigação orientam substituição rápida ou reparo de hardware defeituoso e reconfiguração para reexecutar o treino em recursos saudáveis.
Induzir condições de falha com workloads artificiais em ambientes não produtivos para tornar as falhas mais repetíveis e melhorar a triagem.
Implicações para treino e inferência:
SDCs em treino causam divergência entre passes forward e backward, levando a menor eficácia do treino.
SDCs em inferência produzem saídas incorretas que afetam milhares de consumidores e podem violar políticas de privacidade ou integridade.
Considerações práticas:
A aceleração e suas pilhas de software apresentam desafios de confiabilidade pela complexidade e telemetria limitada; dependências de rede complicam a atribuição de falhas.
As abordagens são aplicáveis a workloads de IA e não-IA, refletindo um compromisso de confiabilidade em toda a frota.

Tabela de falhas

| Categoria de falha | Características | Observações de mitigação |---|---|---| | Falhas estáticas | Estado binário ligar/desligar; triagem direta. | Checagens de saúde verificam presença e configurações; reparos em larga escala são escaláveis. |Erros transitórios | Dependem de carga, temperatura e condições de operação; podem ser aleatórios. | Padronização de padrões, testes controlados, indução de condições não-prod, telemetria pegajosa. |SDCs | Resultados incorretos sem sinais; dependem de dados e desgaste. | Telemetria ampla, dois mecanismos de detecção, isolamento de fonte, restauração via checagem, mitigação na frota. |

Principais conclusões

A confiabilidade em IA em escala exige uma abordagem de falha multinível (estática, transitória, SDC) com telemetria robusta.
SDCs são mais prevalentes com maior densidade de silício e exigem detecção especializada e cobertura de frota para proteger treino e inferência.
Detecção e mitigação em frota, com testes proativos em produção e não-produção, ajudam a reduzir o tempo de inatividade e melhorar a eficácia do modelo.
Processos de triagem claros e recuperação baseada em checagens permitem reinícios rápidos em hardware saudável, minimizando perdas em iterações de treino.
Características de carga/temperatura/fabuação informam mitigação direcionada para reduzir a incidência de falhas.

Perguntas frequentes

Quais são as três categorias amplas de falha observadas pela Meta?

Falhas estáticas, erros transitórios e neutralizações silenciosas de dados (SDCs).
uais mecanismos de detecção são citados para SDCs?

Detecting Silent Errors in the Wild e Hardware Sentinel, implementados na frota com telemetria extensa.
Como as SDCs afetam treino e inferência?

No treino, causam NaN e variantes de gradiente corrompidas, levando à divergência; na inferência, produzem saídas incorretas que afetam muitos usuários.
uais estratégias de mitigação são usadas para SDCs em escala?

Estratégias de infraestrutura e pilha, telemetria RAS ampliada, indicadores de estado pegajosos, testes de falhas em produção e restauração por meio de checagens.

Referências

https://engineering.fb.com/2025/07/22/data-infrastructure/how-meta-keeps-its-ai-hardware-reliable

Como a Meta Mantém Seu Hardware de IA Confiável: Detecção e Mitigação de Neutralizações Silenciosas de Dados

TL;DR

Contexto e antecedentes

Falhas estáticas

Erros transitórios

SDCs (neutralizações silenciosas de dados)

O que há de novo

Por que isso importa

Detalhes técnicos ou Implementação

Tabela de falhas

Principais conclusões

Perguntas frequentes

Referências

More news

NVIDIA HGX B200 reduz a Intensidade de Emissões de Carbono Incorporado

Playbook dos Grandmasters do Kaggle: 7 Técnicas de Modelagem Testadas para Dados Tabulares

Como reduzir gargalos do KV Cache com NVIDIA Dynamo

Microsoft transforma site da Foxconn no data center Fairwater AI, considerado o mais poderoso do mundo

NVIDIA RAPIDS 25.08 Adiciona Novo Profiler para cuML, Melhorias no Motor GPU Polars e Suporte Ampliado de Algoritmos

Decodificação Especulativa para Reduzir a Latência na Inferência de IA: EAGLE-3, MTP e Abordagens Draft-Target