Bienvenue GPT OSS : les modèles Open-Source MoE 120B et 20B d’OpenAI arrivent
TL;DR
- OpenAI a publié GPT OSS, une nouvelle famille de modèles à poids ouverts utilisant MoE : gpt-oss-120b (1200 milliards de paramètres) et gpt-oss-20b (20 milliards de paramètres).
- Les deux modèles utilisent des réseaux experts en mélange (MoE) et une quantification MXFP4 en 4 bits pour accélérer l’inférence tout en conservant une faible utilisation des ressources.
- Le modèle de 20B peut fonctionner sur des GPU disposant de 16 Go de RAM; celui de 120B peut tenir sur un seul GPU H100. Tous deux sont accessibles via les Inference Providers de Hugging Face et sous licence Apache 2.0 avec une politique d’utilisation minimale.
- L’accès s’effectue via une API OpenAI-compatible (Responses API) et des intégrations d’entreprise avec Azure et Dell pour les déploiements professionnels.
- Le release met l’accent sur l’utilisation d’outils pendant le raisonnement et propose des conseils pour évaluer et gérer les traces de raisonnement dans les sorties.
Contexte et antécédents
GPT OSS s’inscrit dans l’objectif d’OpenAI de rendre les avantages de l’IA largement accessibles et de contribuer à l’écosystème open source. Deux modèles MoE ouverts sont proposés: gpt-oss-120b et gpt-oss-20b, tous deux quantifiés avec MXFP4. Cette quantification réduit le nombre de paramètres actifs pendant l’inférence afin d’améliorer l’efficacité tout en préservant les performances. Le logiciel est publié sous licence Apache 2.0 avec une politique d’utilisation minimale encourageant un usage sûr et responsable tout en offrant un contrôle accru aux développeurs. Pour plus de détails, consultez le billet de Hugging Face et la démonstration sur gpt-oss.com. Blog Hugging Face • gpt-oss.com
Quoi de nouveau
GPT OSS introduit deux modèles à poids ouverts : gpt-oss-120b et gpt-oss-20b, tous deux basés sur MoE et quantifiés avec MXFP4 (4 bits). Cette quantification permet de réduire les paramètres actifs pendant l’inférence, tout en conservant de bonnes performances. Le modèle 120B peut tenir sur une seule GPU H100, tandis que le 20B peut fonctionner sur du matériel grand public avec 16 Go de RAM, ce qui ouvre la porte à des cas d’utilisation locaux et embarqués. L’accès se fait via le service Inference Providers de Hugging Face, permettant d’envoyer des requêtes vers des backends compatibles OpenAI à l’aide du même code Python ou JavaScript utilisé avec d’autres fournisseurs. Le billet décrit également une API de Réponses compatible OpenAI pour des interactions de chat plus flexibles, avec des exemples utilisant le fournisseur Fireworks AI. L’écosystème logiciel inclut transformers (v4.55.1+), accelerate et kernels, avec une recommandation d’installer Triton 3.4+ pour débloquer les kernels MXFP4 sur le matériel CUDA. En cas d’indisponibilité de MXFP4, une voie de repli avec le bfloat16 est proposée. Des kernels optimisés pour l’attention, Flash Attention 3 avec sink attention, sont mentionnés, avec l’option MegaBlocks MoE pour certains matériels, en tenant compte des compromis mémoire. Sur le plan écosystémique, les GPT OSS ont été vérifiés sur le matériel AMD Instinct, et un support ROCm initial est annoncé dans la bibliothèque kernels. Un espace Hugging Face dédié pour tester sur le matériel AMD est disponible, et des efforts se poursuivent pour étendre la compatibilité GPU et la couverture des kernels. Le billet explique comment exécuter une configuration multi-GPU (par exemple avec quatre GPU) via accelerate ou torchrun et fournit des extraits de code pour des essais locaux avec transformers serve et l’API Réponses. Les modèles sont conçus pour exploiter l’utilisation d’outils pendant le raisonnement et s’inscrivent dans des déploiements d’entreprise via Azure et Dell.
Pourquoi c’est important (impact pour les développeurs/entreprises)
- Accessibilité et choix de déploiement : le modèle 20B peut s’exécuter sur du matériel grand public avec 16 Go de RAM, facilitant les déploiements privés hors datacenter. Le 120B peut s’exécuter sur une seule GPU H100, avec des options multi-GPU pour des charges plus importantes, élargissant ainsi l’audience.
- Licence et gouvernance : Apache 2.0 avec une politique d’utilisation minimale favorise l’ouverture et l’usage responsable tout en préservant le contrôle de l’utilisateur.
- Intégration écosystème : l’accès via Hugging Face Inference Providers et l’API Réponses compatible OpenAI permettent de construire des applications avec des interfaces familières, tout en s’appuyant sur des poids ouverts. Les partenariats avec Azure et Dell montrent une voie vers des déploiements professionnels gérés et sur site.
- Stabilité matériel et logiciel : le release est pensé autour d’un stack d’inférence sensible au matériel — MXFP4, Flash Attention 3 et kernels optimisés — tout en soutenant AMD ROCm et les matériels NVIDIA CUDA. Cela reflète une collaboration continue pour maximiser les performances.
- Accent sur le raisonnement et l’évaluation : les modèles sont conçus pour le raisonnement et nécessitent des tailles de génération importantes pour les évaluations. Le billet donne des conseils sur le filtrage des traces de raisonnement lors du calcul des métriques, garantissant des évaluations propres pour les tâches de raisonnement.
Détails techniques ou Implémentation
- Famille et quantification : GPT OSS comprend deux modèles MoE, gpt-oss-120b et gpt-oss-20b, quantifiés avec MXFP4 (4 bits). Cette quantification réduit les paramètres actifs pendant l’inférence et améliore les performances.
- Exigences matérielles et déploiement : le 20B tourne sur des GPU avec 16 Go de RAM; le 120B peut tenir sur une seule GPU H100, avec possibilité de parallélisation multi-GPU via accelerate ou torchrun. Si MXFP4 n’est pas disponible, le modèle peut être chargé en bfloat16 à partir des poids quantisés.
- Pile logicielle et optimisations : la pile comprend transformers (v4.55.1+), accelerate et kernels, avec Triton 3.4+ pour activer les kernels MXFP4 sur le matériel CUDA. Des kernels d’attention optimisés (Flash Attention 3) avec support sink attention sont déployés. Sur les GPUs Hopper, les performances ont été testées avec PyTorch 2.7 et 2.8; des instructions existent pour installer des kernels mis à jour accédant au code kernel pré-compilé via la communauté kernels-community.
- Voies kernel alternatives : si MXFP4 n’est pas disponible, MegaBlocks MoE kernels offrent une autre option, mais nécessitent du bfloat16 et impliquent une consommation mémoire supérieure.
- Parcours écosystème et déploiement : les modèles GPT OSS sont accessibles via Inference Providers de Hugging Face et prennent en charge une API Réponses OpenAI, avec des exemples d’intégration en Python et des cas d’usage. Les modèles sont proposés dans Azure AI Model Catalog (GPT OSS 20B et GPT OSS 120B) et via le Dell Enterprise Hub pour les déploiements on-prem. Cela illustre une trajectoire des poids ouverts vers des endpoints gérés et des infrastructures d’entreprise.
- Sortie, raisonnement et usage sûr : le post rappelle que les modèles utilisent des chaînes d’analyse et des sorties finales, et propose de n’ajouter au final que le contenu pertinent à l’utilisateur lorsque les outils ne sont pas utilisés.
Points clés à retenir
- GPT OSS introduit deux modèles MoE ouverts, 120B et 20B, avec MXFP4 (4 bits) pour optimiser performances et ressources.
- Le 20B peut tourner sur du matériel grand public avec 16 Go de RAM; le 120B nécessite une GPU H100, avec options multi-GPU.
- La licence Apache 2.0 avec une politique d’utilisation minimale soutient l’ouverture et l’usage responsable.
- L’accès se fait via Hugging Face Inference Providers et l’API Réponses OpenAI, facilitant l’intégration dans des applications existantes.
- Des partenariats avec Azure et Dell offrent des voies concrètes pour les déploiements d’entreprise et les environnements on-prem, avec un soutien initial à ROCm et des chemins de kernels optimisés pour diverses architectures.
FAQ
-
- **Q : Quels modèles composent GPT OSS ?**
Deux modèles MoE ouverts : gpt-oss-120b et gpt-oss-20b. - **Q : Quelle quantification est utilisée et pourquoi ?** **A :** MXFP4 (4 bits), pour réduire les paramètres actifs et accélérer l’inférence tout en conservant des performances. - **Q : Quel matériel est nécessaire pour exécuter GPT OSS ?** **A :** Le 20B fonctionne avec 16 Go de RAM; le 120B peut tenir sur une seule GPU H100, avec des options multi-GPU. - **Q : Dans quelle licence les modèles sont-ils publiés ?** **A :** Apache 2.0 avec une politique d’utilisation minimale. - **Q : Comment les développeurs accèdent-ils et déploient-ils GPT OSS ?** **A :** Via Hugging Face Inference Providers, avec une API Réponses compatible OpenAI, et des déploiements d’entreprise via Azure AI Model Catalog et Dell Enterprise Hub.
Références
More news
NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé
Le HGX B200 de NVIDIA abaisse l’intensité des émissions de carbone incorporé de 24% par rapport au HGX H100, tout en offrant de meilleures performances IA et une efficacité énergétique accrue. Cet article résume les données PCF et les nouveautés matérielles.
Scaleway rejoint les Fournisseurs d’Inference de Hugging Face pour une Inférence Serverless et Faible Latence
Scaleway est désormais un Fournisseur d’Inference pris en charge sur Hugging Face Hub, permettant l’inférence serverless directement sur les pages de modèles avec les SDK JS et Python. Accédez à des modèles open-weight populaires et bénéficiez d’une latence réduite.
Prévoir les phénomènes météorologiques extrêmes en quelques minutes sans superordinateur : Huge Ensembles (HENS)
NVIDIA et le Lawrence Berkeley National Laboratory présentent Huge Ensembles (HENS), un outil IA open source qui prévoit des événements météorologiques rares et à fort impact sur 27 000 années de données, avec des options open source ou prêtes à l’emploi.
Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo
NVIDIA Dynamo déporte le KV Cache depuis la mémoire GPU vers un stockage économique, permettant des contextes plus longs, une meilleure concurrence et des coûts d’inférence réduits pour les grands modèles et les charges AI génératives.
Le Playbook des Grands Maîtres Kaggle: 7 Techniques de Modélisation pour Données Tabulaires
Analyse approfondie de sept techniques éprouvées par les Grands Maîtres Kaggle pour résoudre rapidement des ensembles de données tabulaires à l’aide d’une accélération GPU, des baselines divers à l’assemblage et à la pseudo-étiquetage.
Microsoft transforme le site Foxconn en data center Fairwater AI, présenté comme le plus puissant au monde
Microsoft dévoile des plans pour un data center Fairwater AI de 1,2 million de mètres carrés au Wisconsin, abritant des centaines de milliers de GPU Nvidia GB200. Le projet de 3,3 milliards de dollars promet un entraînement IA sans précédent.