Évoluer l’inférence IA avec NVIDIA NVLink Fusion : une fibre scale-up pour CPU et XPUs personnalisés
TL;DR
- La complexité croissante des modèles IA fait grimper les paramètres de millions à des billions, nécessitant des clusters de GPUs et une parallélisation à grande échelle pour l’inférence.
- NVLink Fusion donne accès à des technologies scale-up NVLink déjà éprouvées, permettant l’intégration de CPUs personnalisés et XPUs dans le réseau NVLink via des solutions MGX modulaires et des interfaces ouvertes.
- La cinquième génération de NVLink (2024) prend en charge 72 GPUs en all-to-all à 1 800 GB/s, soit environ 130 To/s en bande passante agrégée, soit environ 800 fois l’amélioration par rapport à la première génération.
- NCCL, la bibliothèque de communication de NVIDIA, demeure centrale pour les communications GPU-GPU dans les topologies scale-up et scale-out et est intégrée dans les grands frameworks.
- L’écosystème NVLink Fusion comprend une solution rack MGX prête pour la production, des ponts vers UCIe pour les XPUs et le logiciel CUDA-X pour accélérer les charges IA sur des stacks matériels personnalisés.
Contexte et arrière-plan
La croissance rapide de l’IA a conduit à des modèles beaucoup plus volumineux, nécessitant des ressources de calcul sans précédent. Les charges d’inférence dépendent désormais d’une parallélisation à grande échelle, incluant le parallélisme tensoriel, en pipeline et expert (Mixture-of-Experts), afin de fournir les performances requises par les modèles actuels. Cette évolution pousse les systèmes d’IA vers des fabrics mémoire-sémantique à l’échelle, permettant à un domaine unifié de calcul et de mémoire dans un ensemble étendu de GPUs. NVIDIA a introduit NVLink en 2016 pour dépasser les limitations du PCIe dans le HPC et les charges IA, permettant une communication GPU-GPU plus rapide et un espace mémoire unifié. En 2018, NVLink Switch a atteint 300 GB/s en bandwidth all-to-all dans une topologie à 8 GPUs, ouvrant la voie à des fabrics scale-up dans l’ère du calcul multi-GPU. Le troisième génération de NVLink a introduit SHARP pour optimiser les réductions de bande passante et la latence des opérateurs collectifs. En 2024, la cinquième génération offre une communication all-to-all entre 72 GPUs à 1 800 GB/s, et 130 To/s de bande passante agrégée — soit une amélioration d’environ 800x par rapport à la première génération. NVIDIA poursuit ces avancées annuellement pour répondre à la croissance exponentielle des besoins de calcul IA. L’outil logiciel clé reste NCCL, bibliothèque open-source conçue pour accélérer les communications GPU-GPU dans des topologies scale-up et scale-out, avec prise en charge de la topologie et des optimisations automatiques, intégrée dans les frameworks de Deep Learning majeurs.
Ce qui est nouveau
NVLink Fusion étend l’accès aux technologies scale-up NVLink à destination des hyperscalers, offrant des chemins modulaires et ouverts pour l’intégration de CPUs et XPUs personnalisés dans le fabric NVLink via des solutions MGX et des interfaces ouvertes comme UCIe. Les caractéristiques clés incluent :
- Une solution rack MGX modulaire basée sur l’Open Compute Project (OCP), capable d’intégrer des NIC, DPU ou switches à échelle, offrant une compatibilité large et un déploiement rapide.
- Interfaces XPUs via IP UCIe, avec un chip-bridge NVIDIA pour UCIe-NVLink afin de préserver les performances et faciliter l’intégration. La norme ouverte UCIe donne aux adopteurs la flexibilité de choisir des options XPU actuelles et futures.
- Pour les configurations CPU personnalisées, l’IP NVLink-C2C connecte les GPUs NVIDIA à des CPUs non NVIDIA, permettant des flux de données haute performance dans des environnements mixtes et l’accès à l’écosystème CUDA-X.
- Un écosystème solide de partenaires pour le silicium personnalisé, les CPUs et les IPs, soutenant le design-in rapide et les avancées continues.
- Des systèmes racks prêts pour production, tels que GB200 NVL72 et GB300 NVL72, démontrant la maturité du NVLink Fusion dans des déploiements réels. NVLink Fusion offre donc aux hyperscalers un chemin pour exploiter la famille NVLink scale-up tout en conservant la flexibilité nécessaire pour adapter les CPU, XPUs ou configurations mixtes à leurs charges d’inférence modernes.
Pourquoi c’est important (impact pour les développeurs/entreprises)
L’inférence IA aujourd’hui se joue autant sur la bande passante interconnectée que sur les logiciels et l’architecture. L’association d’interconnexions à haut débit, d’intégration CPU/XPU flexible et d’un écosystème logiciel CUDA-X permet d’optimiser le débit par watt et de réduire la latence sur de grandes grappes de GPUs. En permettant aux CPUs et XPUs de participer au fabric NVLink, les entreprises peuvent adapter ressources de calcul et mémoire aux besoins des modèles modernes, y compris Mixture-of-Experts et les scénarios de scaling au temps réel, tout en conservant la compatibilité avec les flux CUDA existants. La configuration rack de 72 GPUs avec une communication all-to-all et 130 To/s de largeur de bande agrégée, associée à des architectures de rack à haute densité et à un refroidissement avancé, soutient une large gamme de scénarios d’inférence. Pour les développeurs, cela signifie servir des modèles avec plus d’efficacité, de meilleures latences et une meilleure scalabilité des charges d’inférence avec moins de goulets d’étranglement sur l’interconnexion. Pour les opérateurs de data centers, NVLink Fusion propose une voie vers des fabrics à l’échelle rack et conformes aux standards MGX ouverts et à des chaînes d’approvisionnement établies, potentiellement réduisant le temps de démarrage et accélérant le time-to-market de stacks IA personnalisés.
Détails techniques ou Mise en œuvre
Matériel et interconnexions
NVLink Fusion expose les technologies centrales d’échelle comprenant NVLink SERDES, chiplets NVLink, switches NVLink, et l’ensemble de l’architecture rack (spine, câbles cuivre, alimentation et refroidissement avancé) comme composants d’une solution, afin de fonctionner comme un domaine mémoire et calcul unifié. Cette stack matérielle est conçue pour des charges d’inférence à grande échelle avec faible latence entre GPUs.
Interfaces CPU et XPUs
Pour les XPUs personnalisés, NVLink Fusion utilise l’IP UCIe pour connecter les XPUs au NVLink. NVIDIA met à disposition un chip-bridge UCIe vers NVLink afin de préserver les performances et de simplifier l’intégration, tout en maintenant l’accès aux capacités NVLink. Le standard ouvert UCIe offre une flexibilité dans le choix des options XPU pour les plateformes présentes et futures. Pour les CPUs personnalisés, l’IP NVLink-C2C connecte les GPUs NVIDIA à des CPUs non NVIDIA, permettant un déplacement efficace des données dans des environnements hétéroclites et l’accès à l’écosystème CUDA-X.
Logiciel et bibliothèques
NCCL demeure le cœur logiciel pour les communications GPU-GPU, offrant une largeur de bande proche du théorique pour les transferts sur les topologies scale-up et scale-out, avec reconnaissance de topologie et optimisations. NCCL est intégré dans les principaux frameworks de Deep Learning et bénéficie d’une longue trajectoire de développement et de déploiement en production.
Architecture rack et écosystème
NVLink Fusion est conçu comme une solution MGX de rack prête pour la production, capable d’interfacer des NIC, DPU ou switches à échelle, et soutenue par un écosystème robuste et des partenaires prônant l’ouverture et la flexibilité d’intégration.
Déploiements en production et feuille de route
NVIDIA déploie des technologies NVLink scale-up depuis près d’une décennie, avec des progrès sur cinq générations. La génération 2024 atteint 1 800 GB/s all-to-all entre 72 GPUs et 130 To/s de bande passante agrégée, marquant une avancée majeure. L’objectif est d’aligner le matériel et le logiciel pour répondre à l’explosion de la complexité des modèles IA.
Points clés
- NVLink Fusion ouvre l’accès aux technologies scale-up NVLink pour les hyperscalers, permettant l’intégration de CPUs personnalisés et XPUs dans le fabric NVLink.
- Solutions MGX de rack modulaires avec interfaces UCIe pour XPUs et NVLink-C2C pour CPUs, connectant le tout à l’écosystème CUDA-X.
- Topologie 72 GPUs avec 1 800 GB/s all-to-all et 130 To/s de largeur de bande agrégée, soutenant divers scénarios d’inférence.
- NCCL reste le socle logiciel pour les communications GPU-GPU dans les architectures scale-up et scale-out.
- Systèmes de rack prêts pour production (GB200 NVL72 et GB300 NVL72) et un réseau de partenaires pour accélérer le time-to-market des stacks IA personnalisés.
FAQ
-
Qu’est-ce que NVLink Fusion ?
NVLink Fusion est l’approche NVIDIA pour offrir aux hyperscalers l’accès à des technologies NVLink scale-up déjà éprouvées, permettant l’intégration de CPUs personnalisés et XPUs dans le fabric NVLink via des solutions MGX modulaires et des interfaces ouvertes comme UCIe.
-
Comment l’intégration des XPUs fonctionne-t-elle avec NVLink Fusion ?
Les XPUs se connectent au fabric NVLink via l’IP UCIe, avec un chip-bridge fourni par NVIDIA pour maintenir les performances et faciliter l’intégration tout en conservant l’accès à l’écosystème NVLink.
-
Quel rôle joue NCCL dans ces systèmes ?
NCCL accélère les communications GPU-GPU dans les topologies scale-up et scale-out, avec reconnaissance de topologie et optimisations, et est intégré dans les frameworks IA majeurs.
-
Pourquoi cela importe-t-il pour l’inférence IA ?
Les interconnexions haut débit et l’intégration CPU/XPU flexible, combinées à CUDA-X, permettent une inférence plus efficace, avec de meilleures latences et une meilleure scalabilité pour les modèles modernes, y compris les Mixture-of-Experts.
-
Y a-t-il des systèmes rack prêts pour la production ?
Oui, NVIDIA mentionne des systèmes de rack prêts à la production tels que GB200 NVL72 et GB300 NVL72 comme partie de l’écosystème NVLink Fusion.
Références
More news
NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé
Le HGX B200 de NVIDIA abaisse l’intensité des émissions de carbone incorporé de 24% par rapport au HGX H100, tout en offrant de meilleures performances IA et une efficacité énergétique accrue. Cet article résume les données PCF et les nouveautés matérielles.
Prévoir les phénomènes météorologiques extrêmes en quelques minutes sans superordinateur : Huge Ensembles (HENS)
NVIDIA et le Lawrence Berkeley National Laboratory présentent Huge Ensembles (HENS), un outil IA open source qui prévoit des événements météorologiques rares et à fort impact sur 27 000 années de données, avec des options open source ou prêtes à l’emploi.
Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo
NVIDIA Dynamo déporte le KV Cache depuis la mémoire GPU vers un stockage économique, permettant des contextes plus longs, une meilleure concurrence et des coûts d’inférence réduits pour les grands modèles et les charges AI génératives.
Le Playbook des Grands Maîtres Kaggle: 7 Techniques de Modélisation pour Données Tabulaires
Analyse approfondie de sept techniques éprouvées par les Grands Maîtres Kaggle pour résoudre rapidement des ensembles de données tabulaires à l’aide d’une accélération GPU, des baselines divers à l’assemblage et à la pseudo-étiquetage.
Microsoft transforme le site Foxconn en data center Fairwater AI, présenté comme le plus puissant au monde
Microsoft dévoile des plans pour un data center Fairwater AI de 1,2 million de mètres carrés au Wisconsin, abritant des centaines de milliers de GPU Nvidia GB200. Le projet de 3,3 milliards de dollars promet un entraînement IA sans précédent.
NVIDIA RAPIDS 25.08 Ajoute un Nouveau Profiler pour cuML, Améliorations du moteur GPU Polars et Support d’Algorithmes Étendu
RAPIDS 25.08 introduit deux profils pour cuml.accel (fonctionnel et ligne), l’exécuteur streaming par défaut du moteur Polars GPU, un support de types et chaînes étendu, Spectral Embedding dans cuML et des accélérations zéro-code pour plusieurs estimateurs.