Bienvenue GPT OSS : la nouvelle famille de modèles Open-Source d’OpenAI

TL;DR

GPT OSS présente deux modèles à poids ouverts et MoE : GPT OSS 120B (gpt-oss-120b) et GPT OSS 20B (gpt-oss-20b), tous deux utilisant une quantification MXFP4 en 4 bits pour accélérer l’inférence avec moins de paramètres actifs.
Le modèle 120B tient sur un seul GPU H100; le 20B peut fonctionner sur des systèmes équivalents à 16 Go de RAM, ce qui ouvre la voie au matériel grand public et aux déploiements sur appareil.
Les modèles sont sous licence Apache 2.0 avec une politique d’utilisation minimale, visant une utilisation sûre, responsable et démocratique, avec accès via Hugging Face Inference Providers.
Le déploiement intègre des interfaces compatibles OpenAI (API Responses) et des options via Azure, Dell et des environnements on-prem, avec des améliorations de performance grâce à des kernels, Flash Attention 3 de vLLM et le support MXFP4 sur plusieurs générations CUDA.

Contexte et antécédents

OpenAI a publié GPT OSS comme un lancement d’weights ouverts très attendu, axé sur le raisonnement robuste, les tâches agentives et les cas d’utilisation pour les développeurs. Deux modèles clés constituent GPT OSS : un grand modèle d’environ 117B paramètres (désigné gpt-oss-120b) et un plus petit d’environ 21B paramètres (désigné gpt-oss-20b). Les deux modèles utilisent des Mixture-of-Experts (MoE) et une quantification MXFP4 en 4 bits. Cette combinaison permet une inférence plus rapide tout en maintenant une empreinte mémoire raisonnable. Le modèle 120B peut tenir sur un seul GPU H100, tandis que le 20B est conçu pour tourner avec 16 Go de mémoire, le rendant adapté au matériel grand public et aux applications sur appareil. La sortie s’inscrit dans la mission d’OpenAI d’élargir l’accès aux bénéfices de l’IA par des écosystèmes Open-Source, et Hugging Face présente ce mouvement comme une étape significative pour la communauté en accueillant OpenAI dans l’ouverture. L’accès est facilité via les Inference Providers de Hugging Face, qui permettent d’envoyer des requêtes vers les fournisseurs compatibles en utilisant du code JavaScript ou Python standard. Cette infrastructure alimente la démonstration OpenAI officielle sur gpt-oss.com et est disponible pour vos propres projets.

Nouveautés

GPT OSS marque une étape importante dans l’écosystème des modèles open-source destinés aux tâches de raisonnement. Points saillants :

Deux modèles MoE, gpt-oss-120b (~117B paramètres) et gpt-oss-20b (~21B paramètres), quantification MXFP4 en 4 bits pour une inférence efficace.
Conçus pour tourner sur une variété de matériels : le 20B peut fonctionner sur des GPUs avec 16 Go de RAM via MXFP4; le 120B peut tourner sur un seul GPU H100 via MXFP4; prise en charge multi-GPU via accelerate ou torchrun.
Licences et politiques : licence Apache 2.0 avec une politique d’utilisation minimale mettant l’accent sur l’utilisation sûre, responsable et démocratique.
Écosystème logiciel : transformers (v4.55.1+), accelerate et kernels; le déploiement permet de télécharger des kernels MXFP4 optimisés dès la première utilisation, générant d’importantes économies de mémoire.
Optimisations et performances : kernels Flash Attention 3 de vLLM intégrés pour le sink attention ; recommandé pour les cartes Hopper avec PyTorch 2.7 ou 2.8. Le support ROCm AMD est inclus via les kernels pour élargir la compatibilité.
Déploiement et écosystème : GPT OSS est vérifié sur le matériel AMD Instinct et est disponible via Azure AI Model Catalog et Dell Enterprise Hub pour des déploiements d’entreprise sécurisés ; conteneurs optimisés pour on-prem.
Outils supplémentaires : MXFP4 natif dans Llama.cpp avec Flash Attention entre Metal, CUDA et Vulkan via llama-server; Hugging Face Space montre la compatibilité avec le matériel AMD.

Pourquoi c’est important (impact pour les développeurs/entreprises)

La publication de GPT OSS offre des voies concrètes pour que les développeurs et les entreprises intègrent des modèles de grande envergure pour le raisonnement dans des chaînes de production tout en conservant le contrôle des données et la transparence. Les implications clés incluent :

Des options de déploiement sur appareil et sur site qui renforcent la confidentialité, la conformité et la latence pour les scénarios sensibles, le 20B étant adapté au matériel grand public et le 120B aux environnements data center.
Le cadre de licence Apache 2.0 avec une politique d’utilisation minimale abaisse les barrières à l’expérimentation et à l’intégration, facilitant la construction et l’évaluation de modèles de grande ampleur.
L’alliance entre MoE, MXFP4 et les kernels accélérés offre des gains pratiques en performance, avec une large compatibilité matérielle (CUDA, ROCm AMD).
Les partenariats d’entreprise (Azure, Dell) soutiennent des pipelines d’implémentation sécurisés, avec autoscaling et surveillance dans des environnements d’entreprise.
L’accent sur les flux de raisonnement et les sorties structurées reflète une approche pragmatique de l’évaluation et de l’utilisation responsable, aidant les équipes à calibrer prompts et métriques pour des tâches complexes.

Détails techniques ou Implémentation

Architecture et quantification : les deux modèles sont des MoE et utilisent MXFP4, une quantification en 4 bits qui permet une inférence rapide avec moins de paramètres actifs. Le 120B peut tenir sur une seule H100 avec MXFP4, et le 20B peut fonctionner sur des GPUs avec 16 Go de RAM via MXFP4, avec une option bf16 en fallback.
Stack matériel et logiciel : il faut utiliser les bibliothèques transformers (v4.55.1+), accelerate et kernels. Pour MXFP4 sur CUDA, Triton 3.4+ est recommandé afin d’activer les kernels MXFP4 optimisés dès la première utilisation. Cela offre des économies mémoire substantielles et permet l’inférence de 20B sur des GPUs grand public (p. ex., 3090, 4090).
Kernels et accélération : le projet vLLM propose des kernels Flash Attention 3 optimisés, compatibles avec le sink attention. Sur les GPUs Hopper, il faut installer les kernels les plus récents et récupérer le code kernel pré-compilé via le dépôt kernels-community.
Compatibilité GPU et alternatives : si votre GPU prend en charge MXFP4, c’est la voie recommandée. Sinon, les MegaBlocks MoE kernels peuvent être utilisés, mais nécessitent le bf16 et augmentent l’utilisation mémoire. Le support AMD ROCm est inclus pour élargir la couverture matérielle.
Déploiement et opérabilité : GPT OSS peut être déployé via des serveurs avec deux GPUs H100 ou via des configurations multi-GPU avec accelerate. Les extraits de code montrent comment lancer un serveur et faire des requêtes via l’API Responses compatible OpenAI ou via l’API Completions standard. Les modèles s’intègrent dans les workflows TRL et incluent des exemples de Fine-tuning avec SFTTrainer.
Écosystème et déploiement d’entreprise : Hugging Face collabore avec Azure sur le Azure AI Model Catalog pour mettre les modèles en endpoints sécurisés, et Dell offre des conteneurs optimisés et des fonctionnalités de sécurité pour les déploiements on-prem. Les modèles peuvent être utilisés via Inference Providers et l’API Responses compatible OpenAI.

Tableau rapide

| Modèle | Paramètres | RAM/GPU typique | Remarques |---|---:|---:|---| | GPT OSS 120B | ~117B | Tient sur un seul H100 avec MXFP4 | MoE, quantification 4 bits; multi-GPU via accelerate/torchrun |GPT OSS 20B | ~21B | ~16 Go RAM avec MXFP4; fallback bf16 | matériel grand public; déploiement sur appareil |

Pourquoi c’est important (résumé pour les développeurs et les entreprises)

GPT OSS ouvre des voies concrètes pour créer, évaluer et déployer des modèles de raisonnement de grande envergure tout en conservant le contrôle sur les données et la traçabilité. Les bénéfices incluent des options de déploiement sur appareil et sur site, un cadre de licence permissif et des intégrations cloud et on-prem pour des pipelines de production sécurisés. L’écosystème Azure et Dell renforce l’adoption en entreprise avec des endpoints gérés, l’autoscaling et la surveillance intégrés.

Points clés

Deux modèles MoE ouverts avec MXFP4 en 4 bits pour atteindre un équilibre entre performance et consommation.
120B peut tourner sur un seul H100; 20B peut tourner sur des GPUs avec 16 Go de RAM.
Licence Apache 2.0 et politique d’utilisation minimale pour favoriser l’expérimentation responsable.
Infa et optimisation via kernels, ROCm, et intégration étendue avec des partenaires.
Compatibilité et déploiement élargis via OpenAI API et partenaires d’entreprise.

FAQ

Quels sont les modèles GPT OSS et leurs tailles ?

Deux modèles ouverts MoE : gpt-oss-120b (~117B paramètres) et gpt-oss-20b (~21B paramètres), tous deux avec MXFP4.
Quel matériel est recommandé pour de meilleures performances ?

Le 120B peut tourner sur une seule GPU H100 avec MXFP4; le 20B peut tourner sur des GPUs avec 16 Go de RAM via MXFP4, avec fallback bf16.
Comment accéder et déployer ces modèles ?

Disponibles via Hugging Face Inference Providers et intégrés à l’API Responses OpenAI-compatible. Déploiement possible via Azure AI Model Catalog et Dell Enterprise Hub.
Quel stack logiciel est nécessaire pour de meilleures performances ?

Utilisez transformers (v4.55.1+), accelerate et kernels; Triton 3.4+ recommandé pour MXFP4 sur CUDA. Si MXFP4 n’est pas disponible, les kernels MegaBlocks MoE peuvent être utilisés.
Y a-t-il des notes sur l’évaluation et la génération ?

Le raisonnement est clé pour ces modèles et une taille de génération importante est nécessaire pour des évaluations fiables. Les sorties peuvent contenir des traces de raisonnement dans des canaux et doivent être filtrées lors des métriques.