Skip to content
Open AI and NVIDIA logos.
Source: developer.nvidia.com

Livraison de 1,5 M TPS d’inférence sur NVIDIA GB200 NVL72 : Modèles gpt-oss d’OpenAI accélérés du cloud à l边

Sources: https://developer.nvidia.com/blog/delivering-1-5-m-tps-inference-on-nvidia-gb200-nvl72-nvidia-accelerates-openai-gpt-oss-models-from-cloud-to-edge, developer.nvidia.com

TL;DR

  • NVIDIA annonce jusqu’à 1,5 million de tokens par seconde (TPS) pour le gpt-oss-120b sur un seul système GB200 NVL72, marquant une performance Day 0 sur les plateformes NVIDIA Blackwell et Hopper.
  • Les modèles à poids ouverts gpt-oss sont optimisés pour la précision FP4, avec un contexte 128k utilisant RoPE et une architecture MoE avec activations SwigGLU.
  • La pile logicielle couvre Hugging Face Transformers, Ollama, vLLM, TensorRT-LLM, FlashInfer et Dynamo, permettant un déploiement flexible du cloud à l’edge.
  • Le déploiement s’effectue via les microservices NIM de NVIDIA, avec des guides de déploiement et un écosystème TensorRT-LLM pour des tests rapides et une utilisation en production.
  • Dynamo soutient les séquences longues (ISL) et améliore l’interactivité sur Blackwell. La performance Day 0 est démontrée sur des systèmes GB200 NVL72.

Contexte et antécédents

NVIDIA et OpenAI partagent une histoire d’avancées en IA et outils de performance. Les modèles gpt-oss-20b et gpt-oss-120b sont présentés comme des LLM à poids ouverts, avec raisonnement en chaîne et capacités d’appel d’outils. Ces modèles visent une inference efficace sur l’architecture Blackwell et ont été entraînés sur des grappes GPU importantes (notamment des GPUs NVIDIA H100). RoPE avec un contexte de 128k est utilisé pour l’attention, alternant entre traitement complet du contexte et une fenêtre glissante de 128 tokens. La précision FP4 est utilisée, adaptée à un GPU data center de 80 Go et prise en charge nativement par Blackwell. Les déploiements data center utilisent 72 GPUs Blackwell connectées par NVLink de cinquième génération, permettant à ces 72 GPUs de fonctionner comme un seul GPU massif pour les tâches d’inférence. Les modèles ont été entraînés sur des GPUs NVIDIA H100, et le duo gpt-oss-120b et gpt-oss-20b implique une collaboration avec Hugging Face Transformers, Ollama et vLLM et avec TensorRT-LLM pour des kernels optimisés. L’objectif est d’intégrer gpt-oss à travers le stack logiciel afin de répondre aux besoins des développeurs et d’offrir des performances Day 0. Ce post souligne aussi les outils de l’écosystème et les efforts de vérification de précision avec vLLM, et explique que les kernels optimisés peuvent être déployés via la FlashInfer LLM et que vLLM gère les dépendances Python pour des serveurs compatibles OpenAI.

Quoi de neuf

L’amélioration principale est d’atteindre 1,5 M TPS pour l’inférence gpt-oss-120b sur un système GB200 NVL72, démontrant une performance Day 0 sur Blackwell et Hopper. Cela repose sur:

  • Transformer Engine de 2e génération avec des Tensor Cores FP4 et des interconnexions NVLink de 5e génération pour faire agir 72 GPUs Blackwell comme un seul GPU massif.
  • Modèles open-weight (gpt-oss-120b et gpt-oss-20b) optimisés FP4 et contexte RoPE 128k.
  • Une stack logicielle intégrée (Transformers, Ollama, vLLM) et des kernels optimisés via TensorRT-LLM pour le déploiement.
  • Déploiement Day 0 et réglages pour les scénarios edge et data center, avec exécution sur stations de travail RTX PRO ou PC GeForce RTX AI et FP4 natif.
  • Dynamo présente une approche de service d’inférence dégroupée qui améliore l’efficacité pour les longues séquences, avec routage LLM et autoscaling élastique et transfert de données faible latence; à 32k ISL, Dynamo améliore l’interactivité sur Blackwell par 4x. Les optimisations sont publiées sur le dépôt NVIDIA/TensorRT-LLM sur GitHub, avec un guide de déploiement pour lancer des serveurs haute performance et des checkpoints du modèle téléchargeables sur Hugging Face. La collaboration avec OpenAI et la communauté vise à maximiser la performance tout en garantissant l’exactitude.

Pourquoi c’est important (impact pour les développeurs/entreprises)

Pour les développeurs et les entreprises, ce travail montre comment les modèles gpt-oss peuvent être déployés avec un débit élevé et une latence faible, du cloud à l’edge. Implications clés:

  • Support Day 0 pour les derniers modèles gpt-oss sur Blackwell et Hopper, permettant une expérimentation immédiate et une utilisation en production sans délai.
  • Possibilité de faire fonctionner des modèles très volumineux (p. ex. 120b) sur un seul système GB200 NVL72 avec FP4, réduisant l’empreinte matérielle et le coût par token.
  • Un écosystème logiciel cohérent (Transformers, Ollama, vLLM) et des kernels optimisés (TensorRT-LLM, FlashInfer) qui simplifient déploiement, tests et exploitation.
  • Options d’implantation flexibles: expérimentation locale sur stations équipées de GPUs RTX PRO ou PC GeForce RTX AI, et déploiements data center via microservices NIM et configurations prêtes pour la production.
  • Dynamo offre une approche d’inférence dégroupée adaptée aux séquences longues avec routage et auto-scaling, utile pour les services IA à grande échelle.

Détails techniques ou Mise en œuvre

Les fondations techniques reposent sur plusieurs choix:

  • Matériel: la famille Blackwell avec 72 GPUs par rack, reliés par NVLink de 5e génération et NVLink Switch, pour agir comme un seul GPU pour LLMs à grande échelle.
  • Précision et contexte: les modèles gpt-oss fonctionnent en FP4 avec RoPE et contexte de 128k, alternant traitement du contexte complet et fenêtre glissante de 128 tokens.
  • Conception du modèle: gpt-oss-120b et gpt-oss-20b adoptent une architecture Mixture of Experts (MoE) avec activations SwigGLU.
  • Entraînement et infra: entraînés sur des GPUs NVIDIA H100, reflétant l’utilisation de clusters importants durant le développement.
  • Stack logiciel et intégrations: collaboration avec Hugging Face Transformers, Ollama et vLLM pour les chemins de déploiement, et intégration avec TensorRT-LLM pour kernels optimisés. FlashInfer LLM fournit des kernels de service pour le data center, tandis que vLLM gère les dépendances Python et les serveurs compatibles API OpenAI.
  • Déploiement avec Dynamo: déployer gpt-oss-120b via Dynamo et TensorRT-LLM améliore les performances pour les séquences longues sans perdre de débit (ISL 32k, 4x d’interactivité sur Blackwell).
  • Disponibilité et packaging: les modèles peuvent tourner sur des stations RTX PRO ou PC GeForce RTX AI, tout en étant packagés en microservices NIM pour une déploiabilité flexible et sécurisée.

Points clés

  • 1,5 M TPS est atteignable pour gpt-oss-120b sur GB200 NVL72, démontrant Day 0 sur Blackwell et Hopper.
  • FP4 et contexte 128k RoPE sont centraux pour obtenir un throughput élevé avec de grandes fenêtres contextuelles.
  • Un écosystème logiciel cohérent et des kernels optimisés facilitent l’ensemble du cycle déploiement.
  • Dynamo offre une voie scalable pour les séquences longues avec routage et autoscaling.
  • Le dépôt TensorRT-LLM et les microservices NIM simplifient le déploiement et les tests en production.

FAQ

  • Quel matériel permet 1,5M TPS dans ce déploiement?

    Un système GB200 NVL72 monté sur GPUs Blackwell connectés via NVLink de 5e génération permet 1,5M TPS pour gpt-oss-120b.

  • uels modèles composent la famille gpt-oss?

    gpt-oss-120b et gpt-oss-20b, optimisés en FP4.

  • uels stacks logiciels utilisent ces modèles?

    Hugging Face Transformers, Ollama, vLLM, kernels TensorRT-LLM et Dynamo pour le déploiement.

  • Comment le contexte est-il géré?

    RoPE avec un contexte de 128k, alternant contexte total et fenêtre glissante de 128 tokens.

  • Comment les développeurs peuvent-ils tester localement?

    Déployez sur des stations RTX PRO ou PC GeForce RTX AI avec les outils et environnements préconfigurés.

Références

More news