Présentation de gpt-oss : modèles open-weight 1200B et 20B sous Apache 2.0
Sources: https://openai.com/index/introducing-gpt-oss, openai.com
TL;DR
- Lancement de deux modèles de langage open-weight, gpt-oss-120b et gpt-oss-20b, sous licence Apache 2.0, offrant de hautes performances à coût réduit.
- Ces modèles surpassent des modèles open de taille similaire sur des tâches de raisonnement, démontrent une forte utilisation d’outils et sont optimisés pour un déploiement efficace sur du matériel grand public.
- Le gpt-oss-120b peut fonctionner efficacement sur un seul GPU de 80 Go, tandis que le gpt-oss-20b peut tourner sur des dispositifs périphériques disposant de 16 Go de mémoire, pour des cas d’utilisation « on-device » et une itération rapide sans infrastructure coûteuse.
- Les deux modèles prennent en charge l’utilisation d’outils, le few-shot function calling et le raisonnement en chaîne (CoT), y compris HealthBench, et sont compatibles avec l’API Responses pour l’intégration dans des workflows agentiels.
- Ils offrent un CoT complet et prennent en charge les Sorties Structurées, avec une sécurité intégrée via une formation et des évaluations de sécurité, et un cadre Preparedness adversarial fine-tuning.
- Des partenariats avec AI Sweden, Orange et Snowflake montrent des usages réels, notamment l’hébergement sur site et le fine-tuning sur des jeux de données spécialisés.
- Les modèles utilisent MoE (mixture-of-experts) pour réduire le nombre de paramètres actifs; attention dense et locale par couches, attention multi-query groupée, RoPE et une longueur de contexte de 128k.
- Entraînement axé sur l’anglais, avec une priorité STEM, codage et connaissances générales; tokenisation via le tokeniseur o200k_harmony, aujourd’hui open-source.
- Les évaluations montrent que le gpt-oss-120b surpasse o3-mini et égalise ou dépasse o4-mini sur plusieurs benchmarks; le gpt-oss-20b égale ou dépasse o3-mini et, dans certains cas, le surpasse.
Contexte et aperçu
OpenAI déploie deux modèles d’avant-garde open-weight : gpt-oss-120b et gpt-oss-20b. Tous deux visent à offrir des performances solides dans des scénarios réels à coût réduit tout en restant ouverts à la communauté des développeurs et chercheurs via la licence Apache 2.0. Ces modèles complètent la famille des modèles open-weight d’OpenAI et sont conçus pour être utilisés dans des workflows agentiels, avec un accent sur le suivi d’instructions, l’utilisation d’outils (par exemple recherche web ou exécution de code Python) et des capacités de raisonnement. La release intègre aussi un cadre de sécurité, avec des évaluations supplémentaires et un test d’une version adversarialement ajustée dans le Preparedness Framework. Les résultats et les détails méthodologiques sont partagés dans un papier de recherche et dans la card de modèle, avec une revue par des experts externes. Du point de vue architectural, ces modèles reposent sur des Transformers et emploient des MoE (mixture-of-experts) pour réduire le nombre de paramètres actifs par token. Le gpt-oss-120b active 5,1B paramètres par token, et le gpt-oss-20b 3,6B. Leurs nombres de paramètres totaux sont respectivement de 117B et 21B. Ils utilisent des schémas d’attention alternant entre denses et sparsités locales, une attention multi-query groupée (taille de groupe 8) et RoPE (Rotary Positional Embedding) pour l’encodage positionnel, avec un contexte natif jusqu’à 128k. L’entraînement combine pré-entraînement et post-entraînement, y compris une étape de supervision et une phase RL à grande échelle, afin d’aligner les modèles sur la spécification OpenAI Model et de favoriser le raisonnement CoT et l’utilisation d’outils avant la génération de la réponse. Comme les modèles de raisonnement SoTA d’OpenAI, gpt-oss propose trois niveaux d’effort de raisonnement — faible, moyen et élevé — ajustables via le message système. Le corpus d’entraînement est principalement en anglais et couvre des domaines STEM, du codage et des connaissances générales. La tokenisation utilise un sur-ensemble du tokenizer utilisé pour o4-mini et GPT‑4o, nommé o200k_harmony, qui est également mis à disposition aujourd’hui. En évaluation, le gpt-oss-120b surpasse o3-mini et égalise ou dépasse o4-mini sur des tâches comme Codeforces (programmation compétitive), MMLU et HLE (résolution de problèmes généraux), et TauBench (utilisation d’outils). Il obtient aussi de meilleures performances sur HealthBench et sur les mathématiques compétitives (AIME 2024 & 2025). Le gpt-oss-20b affiche des résultats similaires ou supérieurs à o3-mini sur ces mêmes critères et peut même surpasser ce dernier dans certains domaines. Comme annoncé, les modèles open-weight ne remplacent pas un professionnel de santé et ne sont pas destinés au diagnostic ou au traitement des maladies. Des détails sur la sécurité et les benchmarks sont publiés dans le cadre du modèle et dans le papier associatif, complétés par des partenariats pour des déploiements sur site et des ajustements spécialisés. Les deux modèles sont conçus pour être utilisés avec l’API Responses et pour permettre des workflows IA basés sur des agents, incluant un suivi d’instructions, l’utilisation d’outils et des capacités de raisonnement qui peuvent être ajustées selon les exigences de latence et de coût. Cela offre une flexibilité précieuse pour les développeurs et les entreprises qui souhaitent exécuter et personnaliser l’IA sur leur propre infrastructure.
Ce qui est nouveau
- Premiers modèles open-weight depuis GPT‑2 : gpt-oss-120b et gpt-oss-20b, publiés sous licence Apache 2.0.
- Oui, des modèles open-weight avec un raisonnement et une utilisation d’outils avancés et des options adaptées pour le déploiement sur matériel grand public.
- Architecture MoE avec 128 Expert (120b) et 32 Expert (20b); 4 experts actifs par token pour les deux modèles.
- Longueur de contexte de 128k, permettant des raisonnements sur des entrées plus longues.
- Patterns d’inférence efficaces : attention dense et sparse locale, attention multi-query groupée (taille de groupe 8) et RoPE.
- Options de déploiement on-device et on-premises : 120b nécessite des GPU mémoire-élevée, 20b peut fonctionner sur bord (16 Go RAM) et en environnements partenaires pour déploiement on-premises.
- Entraînement axé sur le raisonnement, l’efficacité et l’utilité concrète, avec post-entraînement similaire à o4-mini et évaluations de sécurité sous Preparedness Framework.
- Écosystème et outils : compatibilité avec l’API de Résponses, workflows IA orientés agents, utilisation d’outils et personnalisation du niveau de raisonnement.
Pourquoi c’est important (impact pour les développeurs/entreprises)
La famille gpt-oss permet aux développeurs et organisations d’exécuter et de personnaliser l’IA sur leurs propres infrastructures, avec des performances compétitives et la possibilité de réduire les coûts. Les capacités on-device et on-premises répondent à des exigences de sécurité des données et réduisent la latence pour de nombreuses applications. En exposant un CoT complet et des Sorties Structurées, les développeurs peuvent construire des flux d’IA plus transparents et contrôlables. L’intégration avec l’API de Résponses facilite l’intégration dans les chaînes d’outils IA existantes et les architectures basées sur des agents, tandis que les trois niveaux de raisonnement offrent une flexibilité pour équilibrer latence et performance.
Détails techniques ou Mise en œuvre
- Tailles de modèle : gpt-oss-120b (36 couches, 117B paramètres totaux ; 5,1B paramètres actifs par token ; 128 experts totaux ; 4 experts actifs par token ; contexte 128k) et gpt-oss-20b (24 couches, 21B paramètres ; 3,6B actifs par token ; 32 experts totaux ; 4 actifs ; contexte 128k).
- Conception MoE pour réduire le nombre de paramètres actifs tout en conservant une capacité de raisonnement avancée.
- Attention et encodage : motifs d’attention densément connectés et esparsité locale, attention multi-query groupée (taille de groupe 8) et RoPE.
- Longueur de contexte : prise en charge native jusqu’à 128k tokens.
- Tokenisation : entraînement sur un corpus majoritairement anglais, avec concentration sur STEM et codage; tokenisation via o200k_harmony, open-source aujourd’hui.
- Post-entraînement : fine-tuning supervisé suivi d’une phase RL à coût élevé pour aligner sur la Spec de modèle et favoriser CoT et l’utilisation des outils.
- Sécurité et évaluation : formations et évaluations de sécurité complètes, et ajustement adversarial sous Preparedness Framework, avec des résultats comparables à des modèles de pointe dans des benchmarks internes.
Points clés à retenir
- gpt-oss offre des options open-weight avec un raisonnement et une utilisation d’outils avancés à un coût et une latence favorables, prêt pour l’intégration dans diverses architectures.
- Le 120b cible des tâches de raisonnement complexes et des déploiements on-site/on-premises sur du matériel adapté ; le 20b s’adapte aux environnements on-device et bord.
- Les deux modèles proposent trois niveaux de raisonnement (bas/moyen/haut) pour équilibrer latence et performance et sont conçus pour s’intégrer dans les flux de travail via l’API Résponses.
- La sécurité reste au cœur du déploiement, avec des évaluations publiques et des documents à jour (model card et paper).
- Les partenariats avec AI Sweden, Orange et Snowflake illustrent des scénarios d’utilisation réels, y compris l’hébergement sur site et le fine-tuning sur des jeux de données spécialisés.
FAQ
- Q : Que sont gpt-oss-120b et gpt-oss-20b ? A : Ce sont des modèles de langage open-weight avec 117B et 21B paramètres totaux, utilisant une architecture MoE pour offrir un raisonnement avancé et des capacités d’utilisation d’outils.
- Q : Sous quelle licence sont-ils publiés ? A : Apache 2.0.
- Q : Peuvent-ils fonctionner sur des dispositifs périphériques ou des GPUs grand public ? A : Oui. Le gpt-oss-120b peut tourner sur une GPU unique de 80 Go; le gpt-oss-20b peut fonctionner sur des dispositifs de bord avec 16 Go de RAM.
- Q : Comment la sécurité est-elle gérée ? A : Ils ont subi des formations et évaluations de sécurité, y compris un ajustement adversaire sous le Preparedness Framework, avec des résultats comparables à des modèles frontier dans des benchmarks internes.
- Q : Où puis-je trouver plus d’informations techniques et de sécurité ? A : Consultez le model card et le papier de recherche, et utilisez l’API Résponses pour l’intégration.
Références
More news
NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé
Le HGX B200 de NVIDIA abaisse l’intensité des émissions de carbone incorporé de 24% par rapport au HGX H100, tout en offrant de meilleures performances IA et une efficacité énergétique accrue. Cet article résume les données PCF et les nouveautés matérielles.
Scaleway rejoint les Fournisseurs d’Inference de Hugging Face pour une Inférence Serverless et Faible Latence
Scaleway est désormais un Fournisseur d’Inference pris en charge sur Hugging Face Hub, permettant l’inférence serverless directement sur les pages de modèles avec les SDK JS et Python. Accédez à des modèles open-weight populaires et bénéficiez d’une latence réduite.
Prévoir les phénomènes météorologiques extrêmes en quelques minutes sans superordinateur : Huge Ensembles (HENS)
NVIDIA et le Lawrence Berkeley National Laboratory présentent Huge Ensembles (HENS), un outil IA open source qui prévoit des événements météorologiques rares et à fort impact sur 27 000 années de données, avec des options open source ou prêtes à l’emploi.
Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo
NVIDIA Dynamo déporte le KV Cache depuis la mémoire GPU vers un stockage économique, permettant des contextes plus longs, une meilleure concurrence et des coûts d’inférence réduits pour les grands modèles et les charges AI génératives.
Le Playbook des Grands Maîtres Kaggle: 7 Techniques de Modélisation pour Données Tabulaires
Analyse approfondie de sept techniques éprouvées par les Grands Maîtres Kaggle pour résoudre rapidement des ensembles de données tabulaires à l’aide d’une accélération GPU, des baselines divers à l’assemblage et à la pseudo-étiquetage.
Microsoft transforme le site Foxconn en data center Fairwater AI, présenté comme le plus puissant au monde
Microsoft dévoile des plans pour un data center Fairwater AI de 1,2 million de mètres carrés au Wisconsin, abritant des centaines de milliers de GPU Nvidia GB200. Le projet de 3,3 milliards de dollars promet un entraînement IA sans précédent.