À l’intérieur du NVIDIA Blackwell Ultra : la puce qui alimente l’ère de l’usine d’IA
Sources: https://developer.nvidia.com/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era, https://developer.nvidia.com/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era/, NVIDIA Dev Blog
TL;DR
- NVIDIA Blackwell Ultra est le dernier membre de l’architecture Blackwell, conçu pour l’entraînement IA en usine et les services IA en temps réel.
- Il utilise une conception à deux dies reliés par NV-HBI, offrant une bande passante de 10 TB/s et un accélérateur CUDA programmé avec 208 milliards de transistors sur un process TSMC 4NP.
- Le GPU compte 160 SM agencés en huit GPC, avec quatre Tensor Cores par SM (640 au total), optimisés pour NVFP4 et 256 KB de TMEM par SM.
- Blackwell Ultra délivre jusqu’à 15 petaFLOPS NVFP4, 288 Go de HBM3e par GPU, une mémoire unifiée de 1 To et un traitement d’attention amélioré pour les modèles contextuels volumineux.
- Pour les déploiements en centre de données, Blackwell Ultra prend en charge NVLink (GPU–GPU), NVLink-C2C (interopérabilité avec le CPU Grace) et PCIe Gen 6 x16, avec ConnectX-8 pour le réseau afin d’alimenter les usines IA à grande échelle.
Contexte et historique
L’ère de l’usine d’IA exige du matériel qui scale aussi bien le calcul que la mémoire avec une grande efficacité. Blackwell Ultra est présenté comme l’apothéose des innovations en silice et de l’intégration système visant à accélérer l’entraînement et le raisonnement IA pour des services en temps réel et à grande échelle. Le design repose sur une architecture à deux dies reliés par NV-HBI pour une voie de données à haut débit (10 TB/s) tout en restant un accélérateur CUDA-programmable. Blackwell Ultra est fabriqué par TSMC 4NP et contient 208 milliards de transistors—environ 2,6x plus que le Hopper. Le cœur du dispositif est constitué de 160 SM répartis sur huit GPC. Chaque SM offre une capacité de calcul adaptée aux workloads IA modernes, notamment l’accélération des mécanismes d’attention qui dominent les modèles basés sur des transformeurs.
Ce qu’il y a de nouveau
Blackwell Ultra introduit plusieurs avancées architecturales et capacitaires destinées à augmenter le débit, réduire la latence et étendre la mémoire pour les plus grands modèles IA :
- Cœurs Tensor de cinquième génération sur tous les SM, avec un deuxième Transformer Engine, pour un débit et une latence améliorés dans les workloads denses et creux.
- Quatre Tensor Cores par SM (640 au total), mis à niveau pour NVFP4.
- 256 KB de TMEM par SM pour garder les données près des unités de calcul et supporter le double MMA par bloc de threads pour réduire le trafic mémoire.
- Précision NVFP4 : une approche FP8/FP32 à double échelle qui permet une quantification matérielle avec une précision quasi FP8 et un footprint mémoire moindre.
- Performance NVFP4 allant jusqu’à 15 petaFLOPS (Ultra) contre 10 petaFLOPS pour Blackwell, apportant un gain significatif sur les workloads denses et l’inférence esparce.
- Accélération de l’attention : le débit SFU pour les instructions d’attention clés est doublé, atténuant les goulets d’étranglement dans les modèles à longue fenêtre contextuelle.
- Mémoire : 288 Go de HBM3e par GPU, soit 3,6x plus que H100 et 50% de plus que Blackwell, permettant des modèles avec des paramètres titanesques et de longues séquences.
- Connectivité : NVLink pour GPU à GPU, NVLink-C2C pour la cohérence avec Grace CPU, et PCIe Gen 6 x16 pour les hôtes, avec un réseau ConnectX-8 haut débit.
- Déploiement système : Grace Blackwell Ultra Superchip (GB300 NVL72) associe une Grace CPU à deux GPUs Ultra, offrant jusqu’à 30 PFLOPS dense et 40 PFLOPS clairsemé, mémoire unifiée de 1 To et réseau 800 GB/s ConnectX-8.
Pourquoi c’est important (impact pour les développeurs/entreprises)
Blackwell Ultra représente une avancée majeure en efficacité opérationnelle et en débit IA pour les usines IA de production. La combinaison d’une mémoire plus dense, d’une précision efficace et d’un débit d’attention doublé se traduit par plus d’instances de modèles, des réponses plus rapides et des coûts par token plus faibles en inférence à grande échelle. La mémoire de 288 Go par GPU facilite l’hébergement de modèles trilion-paramètre et des fenêtres de contexte étendues sans recourir fréquemment au KV-cache. Pour les entreprises qui déploient des services IA, l’architecture impacte deux métriques clés :
- Tokens par seconde par utilisateur (TPS/utilisateur) : l’accélération du softmax et du traitement d’attention réduit la latence en inférence en temps réel.
- Tokens par seconde par mégawatt (TPS/MW) : une mémoire plus importante et un mouvement de données plus efficace améliorent l’efficacité du data center, permettant plus de travail par watt.
Détails techniques ou Mise en œuvre
Le design Blackwell Ultra repose sur une intégration à deux dies via NV-HBI, offrant 10 TB/s de largeur de bande entre eux. Le chip compte 208 milliards de transistors sur un process TSMC 4NP, donnant une architecture de calcul dense et toujours CUDA-programmable. Éléments architecturaux clés :
- 160 SM répartis sur huit GPC dans le GPU complet.
- Chaque SM contient quatre Tensor Cores (640 au total) avec NVFP4.
- 256 KB de TMEM par SM pour maintenir les données près des unités de calcul.
- MMA à double bloc : les SMs appariés coopèrent sur une même opération MMA pour réduire le trafic mémoire.
- NVFP4 : format 4 bits avec échelle FP8/FP32 pour une quantification IA efficace et fidèle.
- Performance NVFP4 jusqu’à 15 petaFLOPS (Ultra) vs 10 petaFLOPS sur Blackwell.
- Aclération de l’attention : SFU à débit doublé pour les instructions d’attention.
- Mémoire de 288 Go HBM3e par GPU, et mémoire unifiée jusqu’à 1 To possible.
- Interconnexions : NVLink pour GPU-GPU, NVLink-C2C pour cohérence Grace CPU, et PCIe Gen 6 x16 pour les hôtes; réseau 800 GB/s ConnectX-8 en configuration système.
- Déploiement en rack : Grace CPU + deux GPUs Ultra, avec 30 PF dense et 40 PF clairsemé, mémoire unifiée de 1 To, connectivité réseau élevée.
Points-clés (takeaways)
- Blackwell Ultra associe intégration à deux dies, NV-HBI et mémoire dense pour l’IA en usine.
- NVFP4 offre une précision compacte et efficace, favorable pour l’inférence IA à grande échelle.
- Attn et mémoire étendue permettent des modèles plus grands et des fenêtres contextuelles plus longues sans dépendre fortement du KV-cache.
- Le design améliore l’efficacité énergétique tout en maintenant un débit élevé; les interconnexions et le réseau renforcent l’évolutivité.
- Les options NVLink, NVLink-C2C et PCIe Gen 6 soutiennent des déploiements de l’hôte au GPU jusqu’au déploiement en usine.
FAQ
-
- **Q : Pour quoi Blackwell Ultra est-il conçu ?**
Pour accélérer l’entraînement et le raisonnement IA dans les environnements data-center et les services IA en temps réel à grande échelle. - **Q : Qu’est-ce que NVFP4 et pourquoi est-il important ?** **A :** NVFP4 est une précision de 4 bits avec une échelle FP8/FP32 qui permet une quantification hardware efficace avec une précision proche du FP8 et une empreinte mémoire réduite. - **Q : Combien de mémoire est disponible par GPU ?** **A :** 288 Go de HBM3e par GPU, avec une mémoire unifiée potentielle d’1 To dans une configuration mémoire unifiée (HBM3e + LPDDR5X). - **Q : Quelles interconnexions sont prises en charge ?** **A :** NVLink pour GPU-GPU, NVLink-C2C pour cohérence Grace CPU, PCIe Gen 6 x16 pour les hôtes, et ConnectX-8 réseau pour les déploiements en usine. - **Q : Comment le rendement se compare-t-il aux générations précédentes ?** **A :** Jusqu’à 15 petaFLOPS NVFP4 (contre 10 petaFLOPS sur Blackwell) et un doublement du débit d’attention SFU, accélérant les workloads à contexte long.
Références
More news
NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé
Le HGX B200 de NVIDIA abaisse l’intensité des émissions de carbone incorporé de 24% par rapport au HGX H100, tout en offrant de meilleures performances IA et une efficacité énergétique accrue. Cet article résume les données PCF et les nouveautés matérielles.
Prévoir les phénomènes météorologiques extrêmes en quelques minutes sans superordinateur : Huge Ensembles (HENS)
NVIDIA et le Lawrence Berkeley National Laboratory présentent Huge Ensembles (HENS), un outil IA open source qui prévoit des événements météorologiques rares et à fort impact sur 27 000 années de données, avec des options open source ou prêtes à l’emploi.
Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo
NVIDIA Dynamo déporte le KV Cache depuis la mémoire GPU vers un stockage économique, permettant des contextes plus longs, une meilleure concurrence et des coûts d’inférence réduits pour les grands modèles et les charges AI génératives.
Le Playbook des Grands Maîtres Kaggle: 7 Techniques de Modélisation pour Données Tabulaires
Analyse approfondie de sept techniques éprouvées par les Grands Maîtres Kaggle pour résoudre rapidement des ensembles de données tabulaires à l’aide d’une accélération GPU, des baselines divers à l’assemblage et à la pseudo-étiquetage.
Microsoft transforme le site Foxconn en data center Fairwater AI, présenté comme le plus puissant au monde
Microsoft dévoile des plans pour un data center Fairwater AI de 1,2 million de mètres carrés au Wisconsin, abritant des centaines de milliers de GPU Nvidia GB200. Le projet de 3,3 milliards de dollars promet un entraînement IA sans précédent.
NVIDIA RAPIDS 25.08 Ajoute un Nouveau Profiler pour cuML, Améliorations du moteur GPU Polars et Support d’Algorithmes Étendu
RAPIDS 25.08 introduit deux profils pour cuml.accel (fonctionnel et ligne), l’exécuteur streaming par défaut du moteur Polars GPU, un support de types et chaînes étendu, Spectral Embedding dans cuML et des accélérations zéro-code pour plusieurs estimateurs.