Évoluer l’inférence IA avec NVIDIA NVLink Fusion : une fibre scale-up pour CPU et XPUs personnalisés

TL;DR

La complexité croissante des modèles IA fait grimper les paramètres de millions à des billions, nécessitant des clusters de GPUs et une parallélisation à grande échelle pour l’inférence.
NVLink Fusion donne accès à des technologies scale-up NVLink déjà éprouvées, permettant l’intégration de CPUs personnalisés et XPUs dans le réseau NVLink via des solutions MGX modulaires et des interfaces ouvertes.
La cinquième génération de NVLink (2024) prend en charge 72 GPUs en all-to-all à 1 800 GB/s, soit environ 130 To/s en bande passante agrégée, soit environ 800 fois l’amélioration par rapport à la première génération.
NCCL, la bibliothèque de communication de NVIDIA, demeure centrale pour les communications GPU-GPU dans les topologies scale-up et scale-out et est intégrée dans les grands frameworks.
L’écosystème NVLink Fusion comprend une solution rack MGX prête pour la production, des ponts vers UCIe pour les XPUs et le logiciel CUDA-X pour accélérer les charges IA sur des stacks matériels personnalisés.

Contexte et arrière-plan

La croissance rapide de l’IA a conduit à des modèles beaucoup plus volumineux, nécessitant des ressources de calcul sans précédent. Les charges d’inférence dépendent désormais d’une parallélisation à grande échelle, incluant le parallélisme tensoriel, en pipeline et expert (Mixture-of-Experts), afin de fournir les performances requises par les modèles actuels. Cette évolution pousse les systèmes d’IA vers des fabrics mémoire-sémantique à l’échelle, permettant à un domaine unifié de calcul et de mémoire dans un ensemble étendu de GPUs. NVIDIA a introduit NVLink en 2016 pour dépasser les limitations du PCIe dans le HPC et les charges IA, permettant une communication GPU-GPU plus rapide et un espace mémoire unifié. En 2018, NVLink Switch a atteint 300 GB/s en bandwidth all-to-all dans une topologie à 8 GPUs, ouvrant la voie à des fabrics scale-up dans l’ère du calcul multi-GPU. Le troisième génération de NVLink a introduit SHARP pour optimiser les réductions de bande passante et la latence des opérateurs collectifs. En 2024, la cinquième génération offre une communication all-to-all entre 72 GPUs à 1 800 GB/s, et 130 To/s de bande passante agrégée — soit une amélioration d’environ 800x par rapport à la première génération. NVIDIA poursuit ces avancées annuellement pour répondre à la croissance exponentielle des besoins de calcul IA. L’outil logiciel clé reste NCCL, bibliothèque open-source conçue pour accélérer les communications GPU-GPU dans des topologies scale-up et scale-out, avec prise en charge de la topologie et des optimisations automatiques, intégrée dans les frameworks de Deep Learning majeurs.

Ce qui est nouveau

NVLink Fusion étend l’accès aux technologies scale-up NVLink à destination des hyperscalers, offrant des chemins modulaires et ouverts pour l’intégration de CPUs et XPUs personnalisés dans le fabric NVLink via des solutions MGX et des interfaces ouvertes comme UCIe. Les caractéristiques clés incluent :

Une solution rack MGX modulaire basée sur l’Open Compute Project (OCP), capable d’intégrer des NIC, DPU ou switches à échelle, offrant une compatibilité large et un déploiement rapide.
Interfaces XPUs via IP UCIe, avec un chip-bridge NVIDIA pour UCIe-NVLink afin de préserver les performances et faciliter l’intégration. La norme ouverte UCIe donne aux adopteurs la flexibilité de choisir des options XPU actuelles et futures.
Pour les configurations CPU personnalisées, l’IP NVLink-C2C connecte les GPUs NVIDIA à des CPUs non NVIDIA, permettant des flux de données haute performance dans des environnements mixtes et l’accès à l’écosystème CUDA-X.
Un écosystème solide de partenaires pour le silicium personnalisé, les CPUs et les IPs, soutenant le design-in rapide et les avancées continues.
Des systèmes racks prêts pour production, tels que GB200 NVL72 et GB300 NVL72, démontrant la maturité du NVLink Fusion dans des déploiements réels. NVLink Fusion offre donc aux hyperscalers un chemin pour exploiter la famille NVLink scale-up tout en conservant la flexibilité nécessaire pour adapter les CPU, XPUs ou configurations mixtes à leurs charges d’inférence modernes.

Pourquoi c’est important (impact pour les développeurs/entreprises)

L’inférence IA aujourd’hui se joue autant sur la bande passante interconnectée que sur les logiciels et l’architecture. L’association d’interconnexions à haut débit, d’intégration CPU/XPU flexible et d’un écosystème logiciel CUDA-X permet d’optimiser le débit par watt et de réduire la latence sur de grandes grappes de GPUs. En permettant aux CPUs et XPUs de participer au fabric NVLink, les entreprises peuvent adapter ressources de calcul et mémoire aux besoins des modèles modernes, y compris Mixture-of-Experts et les scénarios de scaling au temps réel, tout en conservant la compatibilité avec les flux CUDA existants. La configuration rack de 72 GPUs avec une communication all-to-all et 130 To/s de largeur de bande agrégée, associée à des architectures de rack à haute densité et à un refroidissement avancé, soutient une large gamme de scénarios d’inférence. Pour les développeurs, cela signifie servir des modèles avec plus d’efficacité, de meilleures latences et une meilleure scalabilité des charges d’inférence avec moins de goulets d’étranglement sur l’interconnexion. Pour les opérateurs de data centers, NVLink Fusion propose une voie vers des fabrics à l’échelle rack et conformes aux standards MGX ouverts et à des chaînes d’approvisionnement établies, potentiellement réduisant le temps de démarrage et accélérant le time-to-market de stacks IA personnalisés.

Détails techniques ou Mise en œuvre

Matériel et interconnexions

NVLink Fusion expose les technologies centrales d’échelle comprenant NVLink SERDES, chiplets NVLink, switches NVLink, et l’ensemble de l’architecture rack (spine, câbles cuivre, alimentation et refroidissement avancé) comme composants d’une solution, afin de fonctionner comme un domaine mémoire et calcul unifié. Cette stack matérielle est conçue pour des charges d’inférence à grande échelle avec faible latence entre GPUs.

Interfaces CPU et XPUs

Pour les XPUs personnalisés, NVLink Fusion utilise l’IP UCIe pour connecter les XPUs au NVLink. NVIDIA met à disposition un chip-bridge UCIe vers NVLink afin de préserver les performances et de simplifier l’intégration, tout en maintenant l’accès aux capacités NVLink. Le standard ouvert UCIe offre une flexibilité dans le choix des options XPU pour les plateformes présentes et futures. Pour les CPUs personnalisés, l’IP NVLink-C2C connecte les GPUs NVIDIA à des CPUs non NVIDIA, permettant un déplacement efficace des données dans des environnements hétéroclites et l’accès à l’écosystème CUDA-X.

Logiciel et bibliothèques

NCCL demeure le cœur logiciel pour les communications GPU-GPU, offrant une largeur de bande proche du théorique pour les transferts sur les topologies scale-up et scale-out, avec reconnaissance de topologie et optimisations. NCCL est intégré dans les principaux frameworks de Deep Learning et bénéficie d’une longue trajectoire de développement et de déploiement en production.

Architecture rack et écosystème

NVLink Fusion est conçu comme une solution MGX de rack prête pour la production, capable d’interfacer des NIC, DPU ou switches à échelle, et soutenue par un écosystème robuste et des partenaires prônant l’ouverture et la flexibilité d’intégration.

Déploiements en production et feuille de route

NVIDIA déploie des technologies NVLink scale-up depuis près d’une décennie, avec des progrès sur cinq générations. La génération 2024 atteint 1 800 GB/s all-to-all entre 72 GPUs et 130 To/s de bande passante agrégée, marquant une avancée majeure. L’objectif est d’aligner le matériel et le logiciel pour répondre à l’explosion de la complexité des modèles IA.

Points clés

NVLink Fusion ouvre l’accès aux technologies scale-up NVLink pour les hyperscalers, permettant l’intégration de CPUs personnalisés et XPUs dans le fabric NVLink.
Solutions MGX de rack modulaires avec interfaces UCIe pour XPUs et NVLink-C2C pour CPUs, connectant le tout à l’écosystème CUDA-X.
Topologie 72 GPUs avec 1 800 GB/s all-to-all et 130 To/s de largeur de bande agrégée, soutenant divers scénarios d’inférence.
NCCL reste le socle logiciel pour les communications GPU-GPU dans les architectures scale-up et scale-out.
Systèmes de rack prêts pour production (GB200 NVL72 et GB300 NVL72) et un réseau de partenaires pour accélérer le time-to-market des stacks IA personnalisés.

FAQ

Qu’est-ce que NVLink Fusion ?

NVLink Fusion est l’approche NVIDIA pour offrir aux hyperscalers l’accès à des technologies NVLink scale-up déjà éprouvées, permettant l’intégration de CPUs personnalisés et XPUs dans le fabric NVLink via des solutions MGX modulaires et des interfaces ouvertes comme UCIe.
Comment l’intégration des XPUs fonctionne-t-elle avec NVLink Fusion ?

Les XPUs se connectent au fabric NVLink via l’IP UCIe, avec un chip-bridge fourni par NVIDIA pour maintenir les performances et faciliter l’intégration tout en conservant l’accès à l’écosystème NVLink.
Quel rôle joue NCCL dans ces systèmes ?

NCCL accélère les communications GPU-GPU dans les topologies scale-up et scale-out, avec reconnaissance de topologie et optimisations, et est intégré dans les frameworks IA majeurs.
Pourquoi cela importe-t-il pour l’inférence IA ?

Les interconnexions haut débit et l’intégration CPU/XPU flexible, combinées à CUDA-X, permettent une inférence plus efficace, avec de meilleures latences et une meilleure scalabilité pour les modèles modernes, y compris les Mixture-of-Experts.
Y a-t-il des systèmes rack prêts pour la production ?

Oui, NVIDIA mentionne des systèmes de rack prêts à la production tels que GB200 NVL72 et GB300 NVL72 comme partie de l’écosystème NVLink Fusion.

Références

https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion/

Évoluer l’inférence IA avec NVIDIA NVLink Fusion : une fibre scale-up pour CPU et XPUs personnalisés

TL;DR

Contexte et arrière-plan

Ce qui est nouveau

Pourquoi c’est important (impact pour les développeurs/entreprises)

Détails techniques ou Mise en œuvre

Matériel et interconnexions

Interfaces CPU et XPUs

Logiciel et bibliothèques

Architecture rack et écosystème

Déploiements en production et feuille de route

Points clés

FAQ

Références

More news

NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé

Prévoir les phénomènes météorologiques extrêmes en quelques minutes sans superordinateur : Huge Ensembles (HENS)

Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo

Le Playbook des Grands Maîtres Kaggle: 7 Techniques de Modélisation pour Données Tabulaires

Microsoft transforme le site Foxconn en data center Fairwater AI, présenté comme le plus puissant au monde

NVIDIA RAPIDS 25.08 Ajoute un Nouveau Profiler pour cuML, Améliorations du moteur GPU Polars et Support d’Algorithmes Étendu