CUDA Toolkit 13.0 : Port Unifié pour Arm et Embedded, Programmation en Tiles et Outils Avancés
Sources: https://developer.nvidia.com/blog/whats-new-and-important-in-cuda-toolkit-13-0, developer.nvidia.com
TL;DR
- CUDA Toolkit 13.0 apporte un support fondamental pour la programmation en tiles (tiles/tableaux) et prépare l’intégration plus large de ce modèle dans CUDA, afin d’augmenter la productivité des développeurs et l’efficacité du hardware.
- Un kit d’outils unifié vise désormais les serveurs Arm SBSA et les plateformes embarquées futures à partir d’une seule installation, réduisant la complexité du CI et facilitant le déploiement de la simulation vers l’edge.
- Le schéma de compression par défaut des fatbins passe à Zstandard (ZSTD), offrant de meilleurs taux de compression avec un impact minimal sur le temps d’exécution; des réductions de taille notables sont signalées dans les API CUDA Math.
- NVIDIA consolide ses images de conteneurs et souligne qu’il n’y a pas de perte de performance ni de flexibilité, permettant une voie binaire unique pour les cibles serveur et embarqué; Nsight Compute 2025.3 apporte des améliorations d’analyse.
- CUDA 13.0 continue de prendre en charge la famille Blackwell et prépare l’intégration de la programmation par tiles avec les Tensor Cores, conformément aux objectifs de productivité annoncés par NVIDIA lors de la GTC 2025. Pour les développeurs et les entreprises, ces changements visent à réduire la gestion des toolchains, à accélérer les cycles d’itération et à préparer les applications pour les futures générations de GPU. Source : NVIDIA Developer Blog
Contexte et contexte historique
CUDA a historiquement exploité un modèle de parallélisme par threads SIMT (Single Instruction, Multiple Threads). CUDA 13.0 marque une étape architecturale majeure en introduisant le modèle de programmation par tiles comme complément au SIMT. Le modèle définit des tiles de données et applique des opérations sur ces tiles, le compilateur et le runtime gèrent la distribution du travail et l’optimisation du matériel. Le modèle est conçu pour se mapper naturellement sur les Tensor Cores et est destiné à permettre aux programmes écrits aujourd’hui de tirer parti des architectures GPU actuelles et futures. NVIDIA a annoncé à la GTC 2025 que ce modèle de tiles sera porté sur CUDA, ce qui représente un virage important pour la productivité et l’efficacité. Parallèlement, CUDA 13.0 renforce la consolidation des plates-formes : NVIDIA unifie le toolkit CUDA entre cibles Arm SBSA pour serveurs et dispositifs embarqués à venir. Cela signifie une seule installation CUDA couvrant les environnements serveur et embarqué, simplifiant les pipelines de construction, test et déploiement. L’unification s’étend aussi aux conteneurs, avec une chaîne d’images commune pour réduire les reconstructions et la surcharge CI tout en conservant performance et flexibilité. La version 13.0 comprend également des améliorations continues pour la série Blackwell de GPUs et confirme la compatibilité avec les dernières cartes Blackwell. Cela assure que les développeurs peuvent exploiter le nouveau matériel dans l’écosystème CUDA 13.x avec les mêmes flux de travail. Nsight Compute évolue avec la version 2025.3 : elle ajoute les tables Instruction Mix et Scoreboard Dependency dans la vue source et une nouvelle section Throughput Breakdown dans les détails des métriques, facilitant le diagnostic des goulots d’étranglement.
Ce qui est nouveau
- Fondations du modèle de programmation par tiles : CUDA 13.0 introduit des changements d’infrastructure au niveau bas pour soutenir le modèle par tiles et prépare son déploiement en deux niveaux. Le modèle définit des tiles de données et des opérations associées, le compilateur et le runtime répartissent le travail et optimisent l’utilisation du hardware. Le mappage sur les Tensor Cores est une caractéristique clé et garantit une voie d’évolution continue.
- Kit unifié pour Arm SBSA et embarqué : une installation unique du CUDA sert les cibles serveur Arm et les futurs dispositifs embarqués, ce qui simplifie la construction, le test et le déploiement. Le passage d’un ciblage à l’autre se fait via l’architecture de calcul (sm_XX) plutôt que par échange de SDK.
- Conteneurs et images : consolidation de la chaîne d’images pour faciliter les flux de simulation, test et déploiement.
- Garantie de performance et portabilité : aucune perte de performance ou de flexibilité n’est introduite ; le compilateur et le runtime continuent à générer du code optimisé.
- Support Blackwell : le support des GPUs Blackwell se poursuit et s’améliore, y compris pour les dernières cartes Blackwell.
- Améliorations Nsight Compute : ajout des tableaux Instruction Mix et Scoreboard Dependency et introduction de Throughput Breakdown pour une analyse plus fine.
- Compression des fatbins en Zstandard : le changement par défaut améliore les taux de compression sans ralentir significativement l’exécution. Des options de décompression et des modes plus agressifs restent disponibles selon les besoins.
- Déballage et compatibilité : NVCC, fatbinary, nvFatbin et composants associés reflètent les nouveaux paramètres et restent compatibles avec les drivers de la ligne 13.x.
Pourquoi c’est important (impact pour les développeurs/entreprises)
- Productivité grâce à l’unification des toolchains : une installation CUDA unique pour Arm SBSA et les cibles embarquées simplifie les pipelines CI, le management des containers et réduit les erreurs de configuration, accélérant les itérations et les déploiements.
- Portabilité et préparation à l’avenir : le modèle tiles et le mapping vers les Tensor Cores offrent une voie compatible avec les futures architectures GPU, réduisant le besoin de chemins de code séparés par génération.
- Flux edge-to-cloud plus fluides : le toolkit unifié et les containers permettent de développer, simuler et déployer des applications IA et robotiques sur bord sans réécriture du code.
- Outils d’optimisation : les améliorations de Nsight Compute permettent d’identifier et d’éliminer plus facilement les goulets d’étranglement et d’optimiser les performances.
- Efficacité de gestion des binaires : la compression ZSTD peut réduire significativement la taille des fatbins, avec des compromis possibles selon les scénarios.
Détails techniques ou Mise en œuvre
- Fondements du modèle tiles : 13.0 introduit des changements d’infrastructure en bas niveau pour soutenir le modèle par tiles et prépare son adoption à deux niveaux. Le modèle décrit des tiles de données et des opérations, avec le compilateur et le runtime qui gèrent la distribution de travail et l’optimisation matérielle, tout en se projetant vers une intégration avec les Tensor Cores.
- Unification Arm SBSA et embarqué : une installation unique s’applique aux cibles serveur Arm et aux futures plateformes embarquées; le passage d’un cible à l’autre se fait en choisissant l’architecture de calcul (sm_XX).
- Existence d’Orin : Orin (sm_87) est une exception qui demeure sur son chemin actuel pour le moment.
- Compression des fatbins : Zstandard devient la norme par défaut, offrant une meilleure compression sans coût notable en temps d’exécution. Des options comme —compress-mode et d’autres restent disponibles pour les cas nécessitant une vitesse de décompression plus élevée ou des compressions plus agressives. Certaines bibliothèques affichent des réductions notables (ex. CUDA Math APIs avec environ 17% de réduction par défaut).
- Contrôles de compression : NVCC, fatbinary, nvFatbin et les composants associés affichent ces nouveaux paramètres tout en assurant la compatibilité avec les drivers de la série 13.x.
- Améliorations Nsight Compute : les tableaux Instruction Mix et Scoreboard Dependency et la nouvelle section Throughput Breakdown apportent une vue plus granulaire du comportement du code et des goulots d’étranglement.
- Compatibilité Blackwell : les GPUs Blackwell restent supportées et l’amélioration continue de leurs performances et capacités est intégrée dans l’écosystème CUDA 13.x.
- Qualification des plateformes : CUDA Toolkit 13.0 a été qualifié et testé sur de nouveaux systèmes d’exploitation ; consulter les notes de version et guides d’installation pour les détails complets. Source : NVIDIA Developer Blog
Points clés à retenir
- Le modèle tiles pose les bases pour une expérience de programmation de haut niveau dans CUDA, avec une roadmap claire pour étendre son accès et ses abstractions.
- L’unification du toolkit pour Arm SBSA et embarqué simplifie fortement le développement multi-plateformes et les déploiements.
- La consolidation des images container et l’installation unique améliorent les pipelines CI et réduisent les coûts de maintenance.
- Zstandard comme compression par défaut réduit la taille des binaires et peut améliorer les temps de chargement sans pénaliser les performances.
- Nsight Compute 2025.3 fournit des outils d’analyse plus détaillés pour optimiser les performances.
- Le support Blackwell se poursuit, assurant une compatibilité continue avec les architectures les plus récentes.
FAQ
Références
- CUDA Toolkit 13.0 : What’s New and Important — NVIDIA Developer Blog. https://developer.nvidia.com/blog/whats-new-and-important-in-cuda-toolkit-13-0
More news
NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé
Le HGX B200 de NVIDIA abaisse l’intensité des émissions de carbone incorporé de 24% par rapport au HGX H100, tout en offrant de meilleures performances IA et une efficacité énergétique accrue. Cet article résume les données PCF et les nouveautés matérielles.
Prévoir les phénomènes météorologiques extrêmes en quelques minutes sans superordinateur : Huge Ensembles (HENS)
NVIDIA et le Lawrence Berkeley National Laboratory présentent Huge Ensembles (HENS), un outil IA open source qui prévoit des événements météorologiques rares et à fort impact sur 27 000 années de données, avec des options open source ou prêtes à l’emploi.
Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo
NVIDIA Dynamo déporte le KV Cache depuis la mémoire GPU vers un stockage économique, permettant des contextes plus longs, une meilleure concurrence et des coûts d’inférence réduits pour les grands modèles et les charges AI génératives.
Le Playbook des Grands Maîtres Kaggle: 7 Techniques de Modélisation pour Données Tabulaires
Analyse approfondie de sept techniques éprouvées par les Grands Maîtres Kaggle pour résoudre rapidement des ensembles de données tabulaires à l’aide d’une accélération GPU, des baselines divers à l’assemblage et à la pseudo-étiquetage.
NVIDIA RAPIDS 25.08 Ajoute un Nouveau Profiler pour cuML, Améliorations du moteur GPU Polars et Support d’Algorithmes Étendu
RAPIDS 25.08 introduit deux profils pour cuml.accel (fonctionnel et ligne), l’exécuteur streaming par défaut du moteur Polars GPU, un support de types et chaînes étendu, Spectral Embedding dans cuML et des accélérations zéro-code pour plusieurs estimateurs.
Décodage spéculatif pour réduire la latence de l’inférence IA : EAGLE-3, MTP et approche Draft-Target
Analyse détaillée du décodage spéculatif pour l’inférence IA, incluant les méthodes draft-target et EAGLE-3, leur réduction de latence et les déploiements via TensorRT.