NVLink Fusion : extension de l’inférence IA via NVLink pour CPU/XPUs personnalisés
Sources: https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion, https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion/, NVIDIA Dev Blog
Aperçu
La croissance exponentielle de la complexité des modèles IA, passant de millions à des trillions de paramètres, entraîne des besoins en calcul sans précédent qui nécessitent typiquement des grappes de GPUs. Les charges d’inférence utilisent de plus en plus des architectures MoE (mixture of experts) et un dimensionnement à l’usage, augmentant davantage la demande en calcul et en mémoire. Pour répondre à cela, l’inférence à grande échelle s’appuie sur des stratégies de parallélisation massive et sur des fabrics mémoire-sémantiques qui permettent à de nombreuses GPUs de fonctionner comme une seule pool de calcul et de mémoire. NVLink Fusion étend les technologies scale-up NVLink éprouvées à des déploiements programmables sur rack, offrant aux hyperscaleurs et aux entreprises une voie vers une inférence IA à grande échelle avec une co-conception hardware/software. NVLink est né en 2016 pour dépasser les limites du PCIe et permettre une communication GPU-GPU plus rapide et une mémoire unifiée. En 2018, le NVLink Switch a atteint 300 Go/s de bande passante all-to-all entre 8 GPUs, ouvrant la voie à des fabrics scale-up. SHARP, troisième génération, améliore les transferts et la latence des opérations collectives, tandis que la cinquième génération de NVLink, lancée en 2024, supporte jusqu’à 72 GPUs avec 1 800 Go/s de communication all-to-all et environ 130 To/s de bande passante agrégée — soit environ 800× celui de la première génération. NVIDIA continue d’innover annuellement pour suivre la croissance des modèles IA. Les performances via NVLink dépendent du matériel et des bibliothèques, notamment NCCL (NVIDIA Collective Communication Library), qui accélère les communications GPU-GPU, est open-source et s’intègre aux principaux frameworks via les bibliothèques CUDA-X. NVLink Fusion élargit l’accès à ce fabric scale-up en offrant des chemins vers des silices personnalisés (CPU et XPU) pour intégrer le NVLink scale-up et l’architecture en rack pour des infrastructures IA semi-customisées destinées à l’inférence. Il prend en charge des standards ouverts et une approche rack MGX de type Open Compute Project, permettant une intégration avec des NIC, DPU ou switches d’échelle, et des configurations CPU personnalisées ou XPUs via IP UCIe ou IP NVLink-C2C. Le résultat est un écosystème flexible et prêt pour la production, conçu pour faire évoluer l’inférence IA dans des domaines étendus tout en préservant l’accès mémoire cohérent et une communication à haut débit. Pour l’offre en rack, NVIDIA mentionne des systèmes prêts pour la production (par exemple GB200 NVL72 et GB300 NVL72) et un écosystème robuste pour accélérer le time-to-market. L’approche NVLink Fusion s’appuie sur un écosystème logiciel et matériel riche, avec des partenaires pour silice personnalisé, CPU et IP, et sur une solution rack data-center prête pour une alimentation dense, le refroidissement liquide et une chaîne d’approvisionnement prête. En bref, NVLink Fusion conditionne la technologie scale-up NVLink à un écosystème étendu afin de permettre des intégrations personnalisées et à grande échelle dédiées à l’inférence IA. Référence : aperçu NVIDIA sur NVLink et NVLink Fusion pour scaler l’inférence IA : https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nVIDIA-nvlink-and-nvlink-fusion/.
Principales caractéristiques
- NVLink Fusion élargit les capacités scale-up du NVLink vers des chemins siliceux personnalisés (CPU et XPU) en intégrant l’IP UCIe et des chiplets NVLink, connectant CPU/XPUs à un fabric scale-up NVLink.
- Compatibilité avec le projet Open Compute Project (OCP) MGX pour un rack modulaire prêt pour la production, pouvant s’intégrer avec NIC, DPU ou switches d’échelle.
- Intégration basée sur l’IP UCIe pour XPUs personnalisés et l’IP NVLink-C2C pour une connectivité CPU-GPU avec mémoire cohérente haute performance.
- Infrastructure hardware comprenant NVLink SERDES, chiplets NVLink, NVLink Switches, ainsi que le spine de rack, câblage cuivre, refroidissement avancé et alimentation pour des déploiements à haute densité.
- Topologie à 72 GPUs avec jusqu’à 1 800 Go/s de communication all-to-all et environ 130 To/s de bande passante agrégée, offrant des gains significatifs par rapport aux générations précédentes.
- NCCL demeure le pilier pour atteindre des débits proches du théorique entre GPUs, avec prise en compte automatique de la topologie et une intégration avec les bibliothèques CUDA-X.
- Le système supporte un domaine unique de calcul mémoire, autorisant le parallélisme en tensor, pipeline et expert sur de grands domaines de GPUs.
- Un écosystème silicium large avec des partenaires pour silicium personnalisé, CPUs et IP, assurant une grande flexibilité de conception et une entrée rapide sur le marché.
- Approche orientée production, avec des solutions rack-scale scale-up destinées à l’inférence IA en environnements d’entreprise et à grande échelle.
Cas d’utilisation courants
- Inférence IA à grande échelle pour des modèles comportant de très grands paramètres, y compris des architectures MoE et des scénarios d’évolutivité en temps d’inférence.
- Déploiements hyperscale nécessitant des échelles de centaines ou milliers de GPUs où la cohérence mémoire et les larges canaux de communication sont essentiels.
- Inférence de LLM et autres workloads basés sur des transformateurs où le compromis débit/latence est géré par les fabrics NVLink à grande échelle.
- Pipelines IA personnalisés nécessitant des configurations CPU/XPU fortement couplées pour obtenir une faible latence sur une famille de modèles.
- Scénarios où un seul pool de calcul et mémoire simplifie l’orchestration entre des milliers d’éléments de calcul.
Setup & installation
Les détails de configuration et d’installation ne sont pas fournis dans la source. L’article décrit l’approche architecturale et l’écosystème plutôt qu’un guide pas-à-pas. Voir l’article d’origine pour le contexte, les capacités et les composants de l’écosystème : https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion/.
# Setup et installation non fournis dans la source.
# Cet espace est laissé intentionnellement vide.
Quick start
La source présente des capacités et des motifs architecturaux, et non un guide rapide exécutable. Une approche pratique minimale consiste à aligner un rack NVLink Fusion avec une stratégie CPU/XPU, afin d’examiner comment une intégration semi-customisée peut supporter l’inférence IA à grande échelle. Cependant, aucun pas exécutable ou échantillon de code n’est fourni dans l’article. Pour plusieurs explications et détails sur les capacités, les performances et les composants, reportez-vous à l’article original : https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion/.
Avantages et inconvénients
- Avantages
- Bande passante interconnectée all-to-all extrêmement élevée (jusqu’à 1 800 Go/s) avec un débit agrégé proche de 130 To/s.
- Capacité d’intégrer des CPUs et XPUs personnalisés dans le fibre scale-up NVLink, permettant des déploiements IA semi-customisés.
- Standards ouverts et compatibilité MGX rack, accélérant l’adoption en production avec un écosystème étendu.
- Support logiciel solide via NCCL, avec une prise en compte automatique de la topologie et une intégration dans les bibliothèques CUDA-X.
- Domaine informatique unifié avec support du parallélisme tensoriel, en pipeline et expert à grande échelle.
- Inconvénients
- Le document n’énumère pas explicitement les inconvénients; l’évaluation dépendra du contexte de déploiement.
- Le déploiement exige une solution rack spécialisée, ce qui peut demander un travail d’intégration et de planification plus soutenu.
- Tous les workloads ne nécessitent pas une telle architecture scale-up; la valeur dépend de la taille du modèle, du parallélisme et des objectifs de latence.
Alternatives (brève comparaison)
| Alternative de connectivité | Différence par rapport au NVLink Fusion | Remarque issue de la source |---|---|---| | Interconnexion PCIe | NVLink a été conçu pour dépasser les limitations de PCIe, offrant une bande passante plus élevée et une mémoire unifiée | PCIe était la norme précédente; NVLink propose une bande passante et une cohérence mémoire supérieures entre GPUs |NVLink scale-up sans Fusion | Fabrics scale-up NVLink traditionnels entre GPUs et switches NVLink | Fusion étend l’accès aux technologies scale-up via une approche rack modulaire et des interfaces CPU/XPU |NVLink-C2C CPU | Connectivité CPU-GPU via l’IP NVLink-C2C | Utile pour des chemins CPU-GPU optimisés dans des configurations semi-custom |
Prix ou licence
Non spécifié dans la source. L’article discute des capacités technologiques, de l’écosystème et de l’architecture en rack, sans termes de licence ou tarification.
Références
- NVIDIA blog : Scaling AI Inference Performance and Flexibility with NVIDIA NVLink and NVLink Fusion. https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion/
More resources
CUDA Toolkit 13.0 pour Jetson Thor : Écosystème Arm Unifié et Plus
Kit CUDA unifié pour Arm sur Jetson Thor avec cohérence mémoire complète, partage du GPU entre processus, interop OpenRM/dmabuf, support NUMA et outils améliorés pour l’embarqué et le serveur.
Réduire les coûts de déploiement des modèles tout en conservant les performances grâce au swap de mémoire GPU
Exploitez le swap mémoire GPU (hot-swapping de modèles) pour partager les GPUs entre plusieurs LLM, réduire les coûts inoccupés et améliorer l’auto-Scaling tout en respectant les SLA.
Amélioration de l’auto-tuning GEMM avec nvMatmulHeuristics dans CUTLASS 4.2
Présente nvMatmulHeuristics pour sélectionner rapidement un petit ensemble de configurations de kernels GEMM à fort potentiel pour CUTLASS 4.2, réduisant considérablement le temps de tuning tout en approchant les performances d’une Recherche Exhaustive.
Accélérez ZeroGPU Spaces avec la compilation ahead-of-time (AoT) de PyTorch
Découvrez comment la compilation AoT de PyTorch accélère ZeroGPU Spaces en exportant un modèle compilé et en le rechargeant instantanément, avec quantification FP8, formes dynamiques et intégration au flux Spaces GPU.
Fine-Tuning gpt-oss pour la précision et les performances avec l’entraînement par quantisation (QAT)
Guide du fine-tuning de gpt-oss utilisant SFT + QAT pour récupérer la précision FP4 tout en préservant l’efficacité, avec upcast vers BF16, MXFP4, NVFP4 et déploiement avec TensorRT-LLM.
Comment les petits modèles linguistiques contribuent à une IA agentique évolutive
Explique comment les petits modèles linguistiques permettent une IA agentique plus rentable et flexible, aux côtés des LLMs, via NVIDIA NeMo et Nemotron Nano 2.