Innovations matérielles NVIDIA et contributions open source façonnent l'IA
Sources: https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai, https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai/, NVIDIA Dev Blog
Aperçu
NVIDIA démocratise l’IA en combinant des modèles open source, des outils pour développeurs et une pile logiciel/matériel conçue pour l’échelle dans le cloud, les data centers, les bureaux et les périphériques edge. Des modèles open source tels que Cosmos, DeepSeek, Gemma, GPT-OSS, Llama, Nemotron, Phi, Qwen et bien d’autres forment la base de l’innovation IA. Ces modèles démocratisent l’accès aux poids, aux architectures et aux méthodologies d’entraînement, permettant l’apprentissage et l’expérimentation pour chercheurs, startups et organisations du monde entier. Les développeurs peuvent apprendre et construire sur des techniques comme le mixture-of-experts, les nouveaux noyaux d’attention, le post-training pour le raisonnement, et plus encore—sans démarrer de zéro. Cette démocratisation est amplifiée par l’accès général aux systèmes NVIDIA et par des logiciels open source spécifiquement conçus pour accélérer l’IA. L’architecture GPU NVIDIA Blackwell est un super puce IA dédié, avec une cinquième génération de Tensor Cores et un nouveau format à virgule flottante sur 4 bits, NVFP4, pour offrir des performances massives avec une grande précision. L’architecture intègre NVLink‑72, permettant une communication GPU-GPU ultra-rapide et une montée en charge sur des configurations multi-GPU pour les workloads exigeants. Les GPUs Blackwell incluent également une deuxième génération de Transformer Engines et NVLink Fusion. Accélérer l’IA exige plus que du matériel puissant: il faut une pile logicielle optimisée qui supporte les charges d’aujourd’hui. NVIDIA démocratise l’accès aux capacités IA en publiant des outils, modèles et jeux de données open source pour permettre aux développeurs d’innover au niveau système. Écosystème open source: plus de 1 000 outils open source sur NVIDIA GitHub et collections NVIDIA Hugging Face avec 450+ modèles et 80+ jeux de données. La pile logicielle couvre tout, des traitements de données fondamentaux aux cadres de développement et de déploiement IA. NVIDIA publie plusieurs bibliothèques CUDA-X open source qui accélèrent des écosystèmes d’outils, garantissant que les développeurs puissent exploiter l’IA open source sur le matériel Blackwell. Le pipeline IA commence par la préparation et l’analyse des données; RAPIDS est une suite open source de bibliothèques Python accélérées par GPU pour accélérer les pipelines ETL et nourrir l’entraînement des modèles. Elle maintient les données sur les GPUs, réduisant les goulets d’étranglement CPU et accélérant l’entraînement et l’inférence. Formation des modèles: NVIDIA NeMo est un cadre de bout en bout pour les LLM, les modèles multimodaux et de parole, permettant une montée en charge fluide des pré- et post-entrainements d’un seul GPU à des milliers de nœuds pour les modèles Hugging Face/PyTorch et Megatron. NVIDIA PhysicsNeMo est un cadre pour le ML guidé par la physique qui intègre les lois physiques dans les réseaux neuronaux, accélérant les jumeaux numériques et les simulations scientifiques. NVIDIA BioNeMo propose des modèles pré-entraînés sous forme de microservices NIM accélérés par NVIDIA, ainsi que des outils pour la prédiction de structures protéiques, la conception moléculaire et la découverte de drogues. Ces cadres s’appuient sur NCCL pour la communication multi-GPU/multi-nœud; NeMo, PhysicsNeMo et BioNeMo étendant PyTorch avec des capacités génératives avancées pour construire, personnaliser et déployer des applications IA génératives au-delà des flux DL standards. Après l’entraînement des modèles, les servir efficacement nécessite la pile d’inférence TensorRT, y compris TensorRT-LLM et TensorRT Model Optimizer; TensorRT-LLM exploite les instructions Blackwell et le format FP4 pour pousser les performances et l’efficacité mémoire dans les grands modèles. Pour les développeurs de kernels, CUTLASS fournit des templates CUDA C++ pour écrire des kernels GEMM à haute performance. NVIDIA Dynamo aide à servir les utilisateurs à l’échelle: une plateforme d’inférence open-source, agnostique au framework, prenant en charge PyTorch, TensorRT-LLM, vLLM, et SGLang; Dynamo inclut NIXL, une bibliothèque de déplacement de données haute bande passante et faible latence pour les environnements d’inférence IA. Les derniers résultats de Dynamo 0.4 montrent jusqu’à 4x plus d’interactivité pour le modèle OpenAI GPT-OSS 120B sur les GPU NVIDIA B200 Blackwell pour les longues chaînes d’entrée, sans compromis de throughput; avec le DeepSeek-R1 671B, le throughput par GPU est supérieur de 2,5x sans coûts d’inférence supplémentaires. Les modèles et jeux de données ouverts sont disponibles sur Hugging Face et dans l’écosystème NVIDIA; beaucoup sont publiés sous des licences permissives, y compris la NVIDIA Open Model License. NVIDIA Nemotron est une famille de LLMs axés sur le raisonnement, conçus pour la précision et les performances. Ces modèles permettent une inferénce efficace et un ajustement fin et peuvent être empaquetés comme microservices d’inférence NIM pour déployer sur tout système GPU-accelerated, du poste de travail au data center. NVIDIA a également publié des modèles multimodaux tels que Isaac GR00T N1.5, un modèle vision-langage-action pour la robotique humanoïde, facilitant le raisonnement et la compréhension des robots, ainsi que des embedding models, tokenizers, et plus encore. Beaucoup de ces modèles sont pré-quantifiés pour NVFP4 et distribués sous des licences permissives. Pour l’IA physique, NVIDIA Cosmos propose une suite de modèles génératifs et d’outils pour générer et comprendre le monde; Cosmos comprend Predict, Transfer et Reason, avec des tokenizers et des pipelines de traitement de données; les licences open model permettent aux développeurs de télécharger et d’adapter. Les SDK et bibliothèques Omniverse utilisent OpenUSD pour l’agrégation de données et l’assemblage de scènes; les extensions de rendu en temps réel RTX et les schémas de physique aident à construire des applications d’IA physique pour des cas industriels et robotiques. Cela complète une pipeline sim-to-real pour former des systèmes d’IA qui opèrent dans le monde réel. Du traitement brut des données aux modèles ouverts comme Cosmos et Nemotron, l’écosystème ouvert de NVIDIA couvre tout le cycle de vie de l’IA. En intégrant des outils, des modèles et des frameworks ouverts à chaque étape, les développeurs peuvent passer du prototype à la production sur le matériel Blackwell sans quitter l’écosystème open source. La stack logicielle IA de NVIDIA alimente des millions de flux de travail de développeurs, des labs de recherche aux entreprises du Fortune 500, permettant aux équipes de tirer parti du potentiel des GPUs Blackwell. En combinant les innovations matérielles comme FP4, la deuxième génération de Transformer Engines et NVLink Fusion avec une collection inégalée de cadres open source, de modèles pré-entraînés et de bibliothèques optimisées, NVIDIA garantit que l’innovation IA peut passer de prototype à production à grande échelle. Vous pouvez tout essayer dès aujourd’hui: explorez des projets open source sur NVIDIA GitHub, accédez à des centaines de modèles et de jeux de données sur Hugging Face, ou explorez le catalogue de projets open source de NVIDIA. Que vous construisiez des LLMs, de l’IA générative, de la robotique ou des pipelines d’optimisation, l’écosystème est ouvert et prêt pour votre prochaine avancée. À propos de la contribution de NVIDIA à l’open source: NVIDIA contribue activement à des projets tels que Linux Kernel, Python, PyTorch, Kubernetes, JAX et ROS. NVIDIA renforce également les écosystèmes open source en contribuant à des fondations telles que Linux Foundation, PyTorch Foundation, Python Software Foundation, Cloud Native Computing Foundation, Open Source Robotics Foundation et The Alliance for OpenUSD.
Caractéristiques clés
- Superpuce IA Blackwell avec des Tensor Cores de cinquième génération et NVFP4 pour un calcul haute performance avec précision
- NVLink‑72 pour une interconnexion ultra-rapide et la montée en charge multi-GPU
- Deuxième génération de Transformer Engines et NVLink Fusion
- Pile logicielle open source couvrant tout le cycle de vie IA
- RAPIDS pour le pré-traitement et ETL accélérés par GPU
- NeMo, PhysicsNeMo et BioNeMo pour le développement de modèles de pointe (LLMs, multimodal, physique-informée et sciences de la vie)
- Bibliothèques CUDA-X, NCCL pour la communication multi-GPU/multi-nœud et CUTLASS pour kernels haute performance
- Stack d’inférence TensorRT avec TensorRT-LLM et TensorRT Model Optimizer, avec support FP4 sur Blackwell
- Dynamo pour servir les modèles de manière indépendante du framework, avec NIXL pour le déplacement de données haute bande passante
- Plus de 1 000 outils open source sur GitHub et 450+ modèles avec 80+ jeux de données sur Hugging Face
- Nemotron pour le raisonnement dans les LLM; Cosmos pour la génération et compréhension du monde; Omniverse OpenUSD pour les pipelines de simulation et de réalité
- Licences permissives pour de nombreux modèles (y compris NVIDIA Open Model License)
- Contributions continues à Linux Kernel, PyTorch, Kubernetes et autres, avec le soutien de fondations telles que Linux Foundation et PyTorch Foundation
Cas d’utilisation courants
- Formation et déploiement de LLM, modèles multimodaux et de parole avec NeMo et stacks associés
- ML informé par la physique pour les jumeaux numériques et les simulations scientifiques avec PhysicsNeMo
- Applications en sciences de la vie comme prédiction de structures protéiques, design moléculaire et découverte de médicaments avec BioNeMo
- Raisonnement robotiques et systèmes autonomes avec Isaac GR00T N1.5 et les flux de travail de sim-to-real via Omniverse OpenUSD
- Inférence et entraînement évolutifs grâce à TensorRT, Dynamo, NCCL et kernels optimisés pour FP4
- Traitement et ETL de données via RAPIDS pour accélérer l’entraînement des modèles
- Mise en paquet et déploiement des modèles sous forme de microservices NIM, du desktop au data center
Installation et configuration
# Les détails d'installation ne sont pas fournis dans la source.
# Veuillez consulter les sources officielles NVIDIA pour les étapes exactes.
Démarrage rapide
Non fourni dans la source; le matériel décrit les capacités et composants, mais pas un script opérationnel de démarrage rapide.
Avantages et limites
- Avantages:
- Écosystème open source riche: >1 000 outils sur GitHub et >450 modèles avec >80 jeux de données sur Hugging Face
- Pile complète couvrant préparation de données, entraînement, inférence et déploiement
- Conception matérielle/logicielle alignée avec Blackwell (FP4, Transformer Engines, NVLink)
- Service via Dynamo de manière framework-agnostique avec inférence optimisée par TensorRT
- Licences permissives pour de nombreux modèles (NVIDIA Open Model License)
- Limites:
- La source ne liste pas explicitement les inconvénients; des considérations pratiques (coûts, exigences matérielles) ne sont pas détaillées
Alternatives (pare-feu concis)
| Aspect | Stack open source NVIDIA (tel que décrit) | Remarques |---|---|---| | Focalisation centrale | Cycle de vie IA avec modèles, jeux de données et outils ouverts | Met l’accent sur l’intégration entre préparation, entraînement, inférence et déploiement |Licence | Licences permissives y compris NVIDIA Open Model License | Termes varient selon le modèle et le jeu de données; vérifier les sources |Écosystème | CUDA-X, RAPIDS, NeMo, Dynamo, TensorRT, CUTLASS, NCCL | Large couverture des flux de travail IA |
Licence
La NVIDIA indique que de nombreux modèles ouverts sont distribués sous des licences permissives, y compris la NVIDIA Open Model License, et met en avant un écosystème permettant l’expérimentation et le déploiement à grande échelle.
Références
More resources
CUDA Toolkit 13.0 pour Jetson Thor : Écosystème Arm Unifié et Plus
Kit CUDA unifié pour Arm sur Jetson Thor avec cohérence mémoire complète, partage du GPU entre processus, interop OpenRM/dmabuf, support NUMA et outils améliorés pour l’embarqué et le serveur.
Réduire les coûts de déploiement des modèles tout en conservant les performances grâce au swap de mémoire GPU
Exploitez le swap mémoire GPU (hot-swapping de modèles) pour partager les GPUs entre plusieurs LLM, réduire les coûts inoccupés et améliorer l’auto-Scaling tout en respectant les SLA.
Amélioration de l’auto-tuning GEMM avec nvMatmulHeuristics dans CUTLASS 4.2
Présente nvMatmulHeuristics pour sélectionner rapidement un petit ensemble de configurations de kernels GEMM à fort potentiel pour CUTLASS 4.2, réduisant considérablement le temps de tuning tout en approchant les performances d’une Recherche Exhaustive.
Accélérez ZeroGPU Spaces avec la compilation ahead-of-time (AoT) de PyTorch
Découvrez comment la compilation AoT de PyTorch accélère ZeroGPU Spaces en exportant un modèle compilé et en le rechargeant instantanément, avec quantification FP8, formes dynamiques et intégration au flux Spaces GPU.
Fine-Tuning gpt-oss pour la précision et les performances avec l’entraînement par quantisation (QAT)
Guide du fine-tuning de gpt-oss utilisant SFT + QAT pour récupérer la précision FP4 tout en préservant l’efficacité, avec upcast vers BF16, MXFP4, NVFP4 et déploiement avec TensorRT-LLM.
Comment les petits modèles linguistiques contribuent à une IA agentique évolutive
Explique comment les petits modèles linguistiques permettent une IA agentique plus rentable et flexible, aux côtés des LLMs, via NVIDIA NeMo et Nemotron Nano 2.