Livraison de 1,5 M TPS d’inférence sur NVIDIA GB200 NVL72 : Modèles gpt-oss d’OpenAI accélérés du cloud à l边
Sources: https://developer.nvidia.com/blog/delivering-1-5-m-tps-inference-on-nvidia-gb200-nvl72-nvidia-accelerates-openai-gpt-oss-models-from-cloud-to-edge, developer.nvidia.com
TL;DR
- NVIDIA annonce jusqu’à 1,5 million de tokens par seconde (TPS) pour le gpt-oss-120b sur un seul système GB200 NVL72, marquant une performance Day 0 sur les plateformes NVIDIA Blackwell et Hopper.
- Les modèles à poids ouverts gpt-oss sont optimisés pour la précision FP4, avec un contexte 128k utilisant RoPE et une architecture MoE avec activations SwigGLU.
- La pile logicielle couvre Hugging Face Transformers, Ollama, vLLM, TensorRT-LLM, FlashInfer et Dynamo, permettant un déploiement flexible du cloud à l’edge.
- Le déploiement s’effectue via les microservices NIM de NVIDIA, avec des guides de déploiement et un écosystème TensorRT-LLM pour des tests rapides et une utilisation en production.
- Dynamo soutient les séquences longues (ISL) et améliore l’interactivité sur Blackwell. La performance Day 0 est démontrée sur des systèmes GB200 NVL72.
Contexte et antécédents
NVIDIA et OpenAI partagent une histoire d’avancées en IA et outils de performance. Les modèles gpt-oss-20b et gpt-oss-120b sont présentés comme des LLM à poids ouverts, avec raisonnement en chaîne et capacités d’appel d’outils. Ces modèles visent une inference efficace sur l’architecture Blackwell et ont été entraînés sur des grappes GPU importantes (notamment des GPUs NVIDIA H100). RoPE avec un contexte de 128k est utilisé pour l’attention, alternant entre traitement complet du contexte et une fenêtre glissante de 128 tokens. La précision FP4 est utilisée, adaptée à un GPU data center de 80 Go et prise en charge nativement par Blackwell. Les déploiements data center utilisent 72 GPUs Blackwell connectées par NVLink de cinquième génération, permettant à ces 72 GPUs de fonctionner comme un seul GPU massif pour les tâches d’inférence. Les modèles ont été entraînés sur des GPUs NVIDIA H100, et le duo gpt-oss-120b et gpt-oss-20b implique une collaboration avec Hugging Face Transformers, Ollama et vLLM et avec TensorRT-LLM pour des kernels optimisés. L’objectif est d’intégrer gpt-oss à travers le stack logiciel afin de répondre aux besoins des développeurs et d’offrir des performances Day 0. Ce post souligne aussi les outils de l’écosystème et les efforts de vérification de précision avec vLLM, et explique que les kernels optimisés peuvent être déployés via la FlashInfer LLM et que vLLM gère les dépendances Python pour des serveurs compatibles OpenAI.
Quoi de neuf
L’amélioration principale est d’atteindre 1,5 M TPS pour l’inférence gpt-oss-120b sur un système GB200 NVL72, démontrant une performance Day 0 sur Blackwell et Hopper. Cela repose sur:
- Transformer Engine de 2e génération avec des Tensor Cores FP4 et des interconnexions NVLink de 5e génération pour faire agir 72 GPUs Blackwell comme un seul GPU massif.
- Modèles open-weight (gpt-oss-120b et gpt-oss-20b) optimisés FP4 et contexte RoPE 128k.
- Une stack logicielle intégrée (Transformers, Ollama, vLLM) et des kernels optimisés via TensorRT-LLM pour le déploiement.
- Déploiement Day 0 et réglages pour les scénarios edge et data center, avec exécution sur stations de travail RTX PRO ou PC GeForce RTX AI et FP4 natif.
- Dynamo présente une approche de service d’inférence dégroupée qui améliore l’efficacité pour les longues séquences, avec routage LLM et autoscaling élastique et transfert de données faible latence; à 32k ISL, Dynamo améliore l’interactivité sur Blackwell par 4x. Les optimisations sont publiées sur le dépôt NVIDIA/TensorRT-LLM sur GitHub, avec un guide de déploiement pour lancer des serveurs haute performance et des checkpoints du modèle téléchargeables sur Hugging Face. La collaboration avec OpenAI et la communauté vise à maximiser la performance tout en garantissant l’exactitude.
Pourquoi c’est important (impact pour les développeurs/entreprises)
Pour les développeurs et les entreprises, ce travail montre comment les modèles gpt-oss peuvent être déployés avec un débit élevé et une latence faible, du cloud à l’edge. Implications clés:
- Support Day 0 pour les derniers modèles gpt-oss sur Blackwell et Hopper, permettant une expérimentation immédiate et une utilisation en production sans délai.
- Possibilité de faire fonctionner des modèles très volumineux (p. ex. 120b) sur un seul système GB200 NVL72 avec FP4, réduisant l’empreinte matérielle et le coût par token.
- Un écosystème logiciel cohérent (Transformers, Ollama, vLLM) et des kernels optimisés (TensorRT-LLM, FlashInfer) qui simplifient déploiement, tests et exploitation.
- Options d’implantation flexibles: expérimentation locale sur stations équipées de GPUs RTX PRO ou PC GeForce RTX AI, et déploiements data center via microservices NIM et configurations prêtes pour la production.
- Dynamo offre une approche d’inférence dégroupée adaptée aux séquences longues avec routage et auto-scaling, utile pour les services IA à grande échelle.
Détails techniques ou Mise en œuvre
Les fondations techniques reposent sur plusieurs choix:
- Matériel: la famille Blackwell avec 72 GPUs par rack, reliés par NVLink de 5e génération et NVLink Switch, pour agir comme un seul GPU pour LLMs à grande échelle.
- Précision et contexte: les modèles gpt-oss fonctionnent en FP4 avec RoPE et contexte de 128k, alternant traitement du contexte complet et fenêtre glissante de 128 tokens.
- Conception du modèle: gpt-oss-120b et gpt-oss-20b adoptent une architecture Mixture of Experts (MoE) avec activations SwigGLU.
- Entraînement et infra: entraînés sur des GPUs NVIDIA H100, reflétant l’utilisation de clusters importants durant le développement.
- Stack logiciel et intégrations: collaboration avec Hugging Face Transformers, Ollama et vLLM pour les chemins de déploiement, et intégration avec TensorRT-LLM pour kernels optimisés. FlashInfer LLM fournit des kernels de service pour le data center, tandis que vLLM gère les dépendances Python et les serveurs compatibles API OpenAI.
- Déploiement avec Dynamo: déployer gpt-oss-120b via Dynamo et TensorRT-LLM améliore les performances pour les séquences longues sans perdre de débit (ISL 32k, 4x d’interactivité sur Blackwell).
- Disponibilité et packaging: les modèles peuvent tourner sur des stations RTX PRO ou PC GeForce RTX AI, tout en étant packagés en microservices NIM pour une déploiabilité flexible et sécurisée.
Points clés
- 1,5 M TPS est atteignable pour gpt-oss-120b sur GB200 NVL72, démontrant Day 0 sur Blackwell et Hopper.
- FP4 et contexte 128k RoPE sont centraux pour obtenir un throughput élevé avec de grandes fenêtres contextuelles.
- Un écosystème logiciel cohérent et des kernels optimisés facilitent l’ensemble du cycle déploiement.
- Dynamo offre une voie scalable pour les séquences longues avec routage et autoscaling.
- Le dépôt TensorRT-LLM et les microservices NIM simplifient le déploiement et les tests en production.
FAQ
-
Quel matériel permet 1,5M TPS dans ce déploiement?
Un système GB200 NVL72 monté sur GPUs Blackwell connectés via NVLink de 5e génération permet 1,5M TPS pour gpt-oss-120b.
-
uels modèles composent la famille gpt-oss?
gpt-oss-120b et gpt-oss-20b, optimisés en FP4.
-
uels stacks logiciels utilisent ces modèles?
Hugging Face Transformers, Ollama, vLLM, kernels TensorRT-LLM et Dynamo pour le déploiement.
-
Comment le contexte est-il géré?
RoPE avec un contexte de 128k, alternant contexte total et fenêtre glissante de 128 tokens.
-
Comment les développeurs peuvent-ils tester localement?
Déployez sur des stations RTX PRO ou PC GeForce RTX AI avec les outils et environnements préconfigurés.
Références
More news
NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé
Le HGX B200 de NVIDIA abaisse l’intensité des émissions de carbone incorporé de 24% par rapport au HGX H100, tout en offrant de meilleures performances IA et une efficacité énergétique accrue. Cet article résume les données PCF et les nouveautés matérielles.
Scaleway rejoint les Fournisseurs d’Inference de Hugging Face pour une Inférence Serverless et Faible Latence
Scaleway est désormais un Fournisseur d’Inference pris en charge sur Hugging Face Hub, permettant l’inférence serverless directement sur les pages de modèles avec les SDK JS et Python. Accédez à des modèles open-weight populaires et bénéficiez d’une latence réduite.
Prévoir les phénomènes météorologiques extrêmes en quelques minutes sans superordinateur : Huge Ensembles (HENS)
NVIDIA et le Lawrence Berkeley National Laboratory présentent Huge Ensembles (HENS), un outil IA open source qui prévoit des événements météorologiques rares et à fort impact sur 27 000 années de données, avec des options open source ou prêtes à l’emploi.
Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo
NVIDIA Dynamo déporte le KV Cache depuis la mémoire GPU vers un stockage économique, permettant des contextes plus longs, une meilleure concurrence et des coûts d’inférence réduits pour les grands modèles et les charges AI génératives.
Le Playbook des Grands Maîtres Kaggle: 7 Techniques de Modélisation pour Données Tabulaires
Analyse approfondie de sept techniques éprouvées par les Grands Maîtres Kaggle pour résoudre rapidement des ensembles de données tabulaires à l’aide d’une accélération GPU, des baselines divers à l’assemblage et à la pseudo-étiquetage.
NVIDIA RAPIDS 25.08 Ajoute un Nouveau Profiler pour cuML, Améliorations du moteur GPU Polars et Support d’Algorithmes Étendu
RAPIDS 25.08 introduit deux profils pour cuml.accel (fonctionnel et ligne), l’exécuteur streaming par défaut du moteur Polars GPU, un support de types et chaînes étendu, Spectral Embedding dans cuML et des accélérations zéro-code pour plusieurs estimateurs.