Comment Meta maintient son matériel IA fiable

TL;DR

Meta exploite une infrastructure IA globale comprenant des milliers de composants matériels, du stockage, du calcul et des réseaux dans des centres de données répartis, conçue pour former des modèles importants et servir des applications IA.
La fiabilité du matériel est au cœur des préoccupations depuis 2018, avec des modes de panne uniques identifiés sur les disques, les CPU, les mémoires, les commutateurs, les GPU, les ASIC et les réseaux.
Les corruptions silencieuses de données (SDC) surviennent plus fréquemment à grande échelle (environ une faute par mille dispositifs) et peuvent perturber l’entraînement et l’inférence sans être détectées.
La détection s’appuie sur plusieurs mécanismes déployés à l’échelle de la flotte, incluant les approches des articles Detecting Silent Errors in the Wild et Hardware Sentinel, complétées par de la télémétrie et des tests.
Pour l’entraînement à grande échelle, jusqu’à 66% des interruptions sont liées à des pannes matérielles dans les accélérateurs, les réseaux ou les mémoires; les mitigations visent une triage rapide, des redémarrages et des restaurations de checkpoints.

Contexte et arrière-plan

L’infrastructure IA mondiale de Meta réunit un grand nombre de composants matériels et de serveurs connectés par une toile réseau dans des centres de données distribués géographiquement. Cette architecture intègre le stockage, le calcul et les réseaux avec des systèmes de fichiers uniques et des applications PyTorch dédiées à l’entraînement ou à l’inférence. Cette infrastructure prend en charge l’entraînement de modèles à grande échelle et des applications IA avancées telles que la génération texte-image et la segmentation d’objets. Depuis 2018, le parcours de fiabilité matérielle de Meta a révélé des modes de panne dans les disques, les CPU, les mémoires, les switches, les GPU, les ASIC et les réseaux, ouvrant souvent la voie à de nouvelles vulnérabilités dans l’industrie. Pour assurer des services à des milliards d’utilisateurs et des milliers de cas d’utilisation internes, Meta a développé des politiques de mitigation afin de garantir le fonctionnement et la disponibilité de l’infrastructure. Former des modèles à grande échelle implique des milliers d’accélérateurs dans un cadre synchrone, où toute panne peut interrompre le processus. Meta se concentre sur la réduction des pannes matérielles pendant l’entraînement via la détection et le diagnostic, et en redémarrant rapidement l’entraînement avec des serveurs et accélérateurs sains. Cela repose sur l’optimisation de la catégorisation des pannes, la triage des périphériques, la sélection des nœuds, la validation du cluster et la restauration par checkpoint. D’après l’expérience avec la famille Llama 3, les pannes dans des composants tels que les SRAM, les HBMs, les grilles de traitement et le matériel des switches réseau impactent fortement la fiabilité des clusters IA, avec plus de 66% des interruptions d’entraînement attribuées à ces pannes. Des défis supplémentaires incluent des accélérateurs potentiellement moins fiables que les CPU en raison de leur complexité et d’une télémétrie limitée, une complexité réseau pouvant conduire à des attributions erronées de pannes, et des erreurs dans la pile logicielle GPU nécessitant des configurations étendues.

Nouveautés

L’approche de fiabilité de Meta combine trois grandes catégories de pannes, des mécanismes de détection à l’échelle de la flotte et des stratégies de mitigation mises en œuvre dans les stacks pour supporter des charges IA croissantes. Les pannes observées se répartissent en trois catégories : statiques, transitoires et silencieuses (SDC). Les pannes statiques se manifestent par des appareils qui s’allument ou s’éteignent, rendant le triage simple. Les erreurs transitoires varient en reproductibilité et incluent des événements thermiques ou des erreurs non corrigeables, nécessitant une compréhension des conditions et des mécanismes de détection pour capturer ces états. Les SDC correspondent à des calculs défectueux sans traces détectables et dépendent fortement des défauts de silicium. La densité accrue de silicium dans les accélérateurs augmente le risque de SDC. Pour se protéger contre les SDC, Meta déploie plusieurs mécanismes de détection à l’échelle de la flotte décrits dans les articles Detecting Silent Errors in the Wild et Hardware Sentinel, et ces mécanismes sont pleinement opérationnels à grande échelle. Les SDC ont des implications particulièrement lourdes pour l’entraînement et l’inférence en IA. En entraînement, les SDC peuvent provoquer des divergences dans les passes forward et backward, compromettant l’efficacité de l’entraînement et nécessitant potentiellement des redémarrages ou des réentraînements. NaN propagation est un mode clé : une erreur unique peut générer un NaN qui se propage dans toutes les étapes suivantes et peut conduire à un arrêt du cluster si l’origine n’est pas identifiée et isolée. Un deuxième cas important est la variance des gradients corrompue. Les SDC peuvent affecter les calculs de gradients, provoquant des explosions ou implosions des gradients ou piégeant l’optimiseur dans des minima locaux. Ces corruptions peuvent être interprétées comme des valeurs valides, entraînant une progression du entraînement qui n’apporte pas d’amélioration réelle. Contrairement à NaN, ces corruptions de gradients sont plus difficiles à détecter et peuvent s’accumuler sur des centaines de cycles avant d’être visibles. En inferénce, les SDC entraînent des résultats incorrects pour des consommateurs, et leur persistance peut compromettre des systèmes tels que les moteurs de recommandation ou les sorties des grands modèles de langue. Les corruptions en inférence peuvent échapper à des garde-fous et réduire l’efficacité des modèles entraînés avec d’importants investissements.

Mécanismes de détection et télémetrie

Meta applique trois mécanismes principaux de détection des SDC sur toute la flotte et en production, fournissant ainsi une couverture robuste pour les workloads IA et non IA. Cette approche, associée aux travaux cités et à une amélioration de la télémétrie RAS dans l’infrastructure d’hyper-échelle, offre une couverture de détection parmi les meilleures en production à grande échelle. Les facteurs influençant l’apparition des erreurs incluent la sensibilité de la charge, la plage de température, la fréquence et les paramètres de fabrication. Des tests dans des environnements non productifs, équipés de charges artificielles, permettent de rendre les fautes plus répétables et d’identifier les états transitoires comme des indicateurs télémetriques. Les états « collants » (sticky) des statuts fournissent des indices télé métrologiques pour les pannes matérielles.

Triaging opérationnel et mitigation

Lorsqu’une panne est déclenchée, les périphériques affectés sont marqués pour mitigation ou réparation. Le triage s’étend sur le cluster, afin d’identifier la source et de rétablir l’entraînement à partir d’un checkpoint sain. Des approches telles que la sélection de nœuds, la validation du cluster et la restauration par checkpoint permettent de reprendre rapidement l’entraînement sur du matériel sain. L’objectif est de réduire le temps nécessaire pour identifier l’accélérateur ou le nœud fautif et de redémarrer à partir d’un état fiable.

Points clés à retenir

Une pile IA à grande échelle exige des mécanismes de détection solides pour les pannes statiques, transitoires et silencieuses afin de maintenir l’entraînement et l’inférence.
Les SDC constituent un risque croissant avec l’augmentation de la densité de silicium dans les accélérateurs et peuvent être difficiles à détecter, surtout dans les scénarios d’entraînement synchronisé.
La détection repose sur des mécanismes multiples et en production, complétés par de la télémétrie et des tests pour accroître la répétabilité des pannes.
Le triage efficace et la récupération rapide (restauration par checkpoint et réallocation de nœuds) sont essentiels pour maintenir la productivité dans des clusters IA massifs.
L’expérience avec la famille Llama 3 met en évidence l’impact matériel sur la fiabilité des modèles et l’efficacité de l’entraînement.

FAQ

- **Q : Qu’est-ce qu’une corruption silencieuse de données (SDC) ?**

Une SDC est une erreur matérielle qui produit des résultats incorrects sans traces évidentes, nécessitant une télémétrie étendue pour identifier la source. - **Q : Comment Meta détecte-t-elle les SDC à l’échelle ?** **A :** Meta utilise plusieurs mécanismes de détection déployés en production sur toute la flotte, associés à des approches télémetries et des tests, comme le décrivent les articles Detecting Silent Errors in the Wild et Hardware Sentinel. - **Q : Pourquoi les SDC sont-elles plus problématiques pour l’entraînement que pour l’inférence ?** **A :** Les SDC peuvent provoquer des divergences dans les passes et rendre l’entraînement inefficient, alors que les corruptions en inférence affectent directement la qualité des résultats visibles par les utilisateurs. - **Q : Quels types de pannes posent le plus de défis à la triage ?** **A :** Les pannes transitoires et les SDCs sont difficiles à reproduire ou à attribuer, nécessitant une télémétrie approfondie et une analyse fondée sur des motifs.