Ajustement fin de gpt-oss pour la précision et la performance avec l’entraînement conscient à la quantification

TL;DR

NVIDIA présente un flux pratique d’ajustement fin pour gpt-oss utilisant un fine-tuning supervisé en haute précision (SFT) suivi d’un entraînement conscient à la quantification (QAT) pour récupérer la précision en FP4 tout en conservant l’efficacité de déploiement.
Le flux passe à BF16 pour le SFT, puis applique QAT pour revenir à la précision MXFP4, permettant à la fois alignement et bénéfices de déploiement en faible précision.
L’évaluation montre, pour deux tâches en aval, une amélioration passant de 16% et 30% à 98% de taux de réussite après SFT + QAT.
Le NVFP4, un format FP4 plus récent conçu pour l’entraînement et l’inférence sur le NVIDIA Blackwell, affiche une perte de validation 2–3% meilleure et promet une convergence plus stable pour des tâches nécessitant un raisonnement plus profond.
Le flux MXFP4 peut être adapté à NVFP4 avec une seule ligne de code; le support NVFP4 dans TensorRT-LLM élargira l’adoption à d’autres frameworks.
Le flux complet est disponible dans le répertoire NVIDIA Model Optimizer, avec un script pratique pour exporter vers des checkpoints PyTorch standard et des chemins de déploiement via TensorRT-LLM.

Contexte et arrière-plan

Les sorties de modèles open source apportent des innovations architecturales et de nouvelles capacités à la communauté IA. La famille gpt-oss est la première suite de modèles open source depuis GPT-2 d’OpenAI, offrant un modèle avancé avec une architecture MoE, une longueur de contexte de 128K et des capacités de raisonnement profond ajustables. La variante la plus grande, gpt-oss-120B, affiche des performances sur des benchmarks ouverts comparables à celles des modèles o3 et o4 propriétaires d’OpenAI. Malgré ces résultats, la plupart des modèles de base nécessitent des techniques de post‑apprentissage pour être déployés en production, notamment dans les secteurs à faible tolérance aux fautes comme la santé et les finances. Le FP4 natif de gpt-oss a présenté des défis spécifiques pour l’ajustement fin. NVIDIA note que la précision stable en FP4 n’est pas encore établie pour l’ajustement fin, justifiant une approche en deux étapes: montée en précision pour stabiliser les gradients, puis SFT en haute précision suivie d’un QAT pour revenir à FP4 tout en préservant les performances spécifiques à la tâche. L’objectif est d’obtenir à la fois un alignement et une efficacité de déploiement en faible précision. Les outils clés incluent le répertoire Model Optimizer de NVIDIA, le soutien des recettes gpt-oss de Hugging Face, des ensembles OpenAI Cookbook et des outils du Transformer Engine de deuxième génération. L’objectif est de récupérer la précision en FP4 tout en maintenant les gains d’efficacité de l’inférence en faible précision pour les applications en production.

Ce qui est nouveau

La recommandation centrale est d’effectuer le fine-tuning en haute précision (BF16) pour stabiliser les gradients, puis d’appliquer le QAT pour ramener le modèle à MXFP4 pour le déploiement. Passer directement au QAT sans étape en haute précision tend à diminuer la précision finale.
Deux tâches en aval montrent des gains marqués: le raisonnement non anglais via un dataset multilingue OpenAI Cookbook et la réduction des refus inutiles de prompts sûrs via le dataset FalseReject d’Amazon. Les scores de base étaient respectivement de 16% et 30%; après le flux, 98% d’approbation sur les deux tâches.
Le gpt-oss est comparé sous MXFP4 et NVFP4; NVFP4 converge généralement plus fiablement et affiche une perte de validation 2–3% meilleure sur les tâches testées. NVFP4 est conçu pour FP4 en entraînement et en inférence et exploite le Transformer Engine de NVIDIA pour de meilleures performances.
La migration MXFP4 → NVFP4 peut se faire en une seule ligne de code, ce qui démontre une trajectoire simple pour adopter NVFP4 à mesure que le support dans TensorRT-LLM et d’autres cadres s’étend.
Avec NVIDIA Blackwell, NVFP4 permet jusqu’à 15 PFLOPs de calcul FP4 sur Ultra compute, offrant une convergence plus serrée et des marges plus larges pour des seuils plus stricts et un raisonnement plus profond. Le paramètre FP8 E4M3 améliore la réduction des erreurs de quantification lors du forward, facilitant l’adaptation des poids à la précision cible.
Après la finalisation de la recette, un script pratique dans le répertoire Model Optimizer exporte le checkpoint BF16 vers MXFP4; les checkpoints MXFP4 résultants ont été testés avec SGLang, TensorRT-LLM et vLLM. Le déploiement peut s’effectuer via TensorRT-LLM 1.1.0rc1.
Le cœur du défi reste: récupérer la précision en FP4 tout en conservant les gains d’efficacité de la faible précision. Le chemin proposé—montée en BF16 pour SFT, puis QAT—résout cette lacune en adaptant les poids à la précision cible tout en renforçant le comportement spécifique à la tâche.
En perspective, le support NVFP4 dans TensorRT-LLM et d’autres cadres d’inférence en open source ouvrira davantage l’adoption, permettant NVFP4 avec la même approche SFT + QAT pour une précision accrue dans les déploiements gpt-oss.

Pourquoi cela compte (impact pour les développeurs/entreprises)

Pour les développeurs et les entreprises, la capacité de déployer des modèles open source puissants comme gpt-oss en FP4 tout en préservant ou en améliorant la précision offre un retour sur investissement convaincant. L’association SFT + QAT permet de récupérer la performance spécifique à la tâche sans sacrifier les gains d’efficacité de l’inférence en faible précision. Dans les domaines sensibles à la sécurité, un meilleur alignement et une réduction des refus se traduisent par des systèmes IA plus utilisables et plus fiables. Alors que le matériel évolue, l’introduction du NVFP4 peut débloquer des gains d’exactitude supplémentaires lorsqu’il est associé à QAT. L’architecture Blackwell de NVIDIA et les outils tels que le Transformer Engine et TensorRT-LLM sont positionnés pour offrir une convergence plus serrée et des marges plus grandes face à des seuils plus stricts et à un raisonnement plus profond dans les déploiements de production. La capacité d’adapter les checkpoints MXFP4 à NVFP4 avec un minimum de modifications de code réduit les obstacles et accélère les délais de déploiement.

Détails techniques ou Mise en œuvre

Flux principal: montée en BF16 pour SFT, puis QAT vers MXFP4 pour le déploiement. Cette séquence stabilise les gradients à haute précision et permet une adaptation des poids à la précision FP4.
Les hyperparamètres et la durée du QAT sont des paramètres à optimiser; passer au QAT sans SFT en haute précision diminue les performances finales, il faut donc préférer un fine-tuning en haute précision avant le QAT.
Les deux tâches évaluées démontrent l’impact concret du flux, avec 98% d’acceptation après le recipe sur chaque tâche: | Tâche | Base | Taux d’acceptation après flux |---|---|---| | Raisonnement non anglais (dataset multilingue OpenAI Cookbook) | 16% | 98% |Refus de prompts sûrs (Amazon FalseReject) | 30% | 98% |
Pour passer de MXFP4 à NVFP4, une seule ligne de code suffit pour adapter la route; après cela, la perte de validation est généralement meilleure de 2–3% selon les tâches.
NVFP4 présente un format FP4 pensé pour l’entraînement et l’inférence, permettant jusqu’à 15 PFLOPs de calcul FP4 sur le calculateur Ultra de Blackwell, avec une meilleure convergence et une marge pour des tâches plus strictes. Le mécanisme FP8 E4M3 atténue les erreurs de quantification pendant le forward, aidant les poids à s’adapter à la précision cible.
Le flux décrit inclut l’exportation du checkpoint BF16 vers MXFP4 via le script pratique du Model Optimizer, puis le déploiement avec des stacks validés tels que SGLang, TensorRT-LLM et vLLM.
Le flux est aligné sur les efforts en cours pour intégrer le support NVFP4 dans TensorRT-LLM et d’autres cadres d’inférence open source, ce qui promet une plus grande accessibilité une fois le NVFP4 pleinement pris en charge.

Points clefs

Un chemin d’ajustement fin en deux étapes (SFT en haute précision suivi de QAT pour FP4) permet de récupérer la précision du gpt-oss en déploiement.
Les résultats sur des tâches cibles sont impressionnants: 98% d’approbation après le recipe pour les deux tâches.
NVFP4 offre des gains potentiels de précision et de convergence par rapport à MXFP4, avec une perte de validation plus faible.
La migration MXFP4 → NVFP4 est simple et rapide, nécessitant une ligne de code.
Le répertoire NVIDIA Model Optimizer fournit des outils complets pour exporter, valider et déployer des checkpoints dans des environnements de production.

FAQ

Quelle est l’idée centrale du QAT dans ce flux?

L’entraînement conscient à la quantification adapte les poids à la précision FP4 cible tout en préservant la précision obtenue lors du SFT en haute précision.
Pourquoi monter en BF16 avant le QAT?

Le passage en BF16 stabilise l’accumulation des gradients pendant l’affinage, rendant le QAT ultérieur plus fiable pour récupérer la précision FP4.
u’est-ce que MXFP4 et NVFP4?

Ce sont des formats FP4 pour les poids et les calculs; MXFP4 est le chemin initial et NVFP4 est un format plus récent optimisé pour le matériel Blackwell.
Comment déployer le modèle ajusté?

Exporter le checkpoint BF16 vers MXFP4 puis déployer via TensorRT-LLM ou d’autres cadres pris en charge.
Où trouver la recette complète?

Dans le répertoire NVIDIA Model Optimizer, avec des adaptations futures pour NVFP4 à mesure que le support s’étend.

Références

NVIDIA Dev Blog: Fine-Tuning gpt-oss for Accuracy and Performance with Quantization Aware Training

Ajustement fin de gpt-oss pour la précision et la performance avec l’entraînement conscient à la quantification

TL;DR

Contexte et arrière-plan

Ce qui est nouveau

Pourquoi cela compte (impact pour les développeurs/entreprises)

Détails techniques ou Mise en œuvre

Points clefs

FAQ

Références

More news

NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé

Scaleway rejoint les Fournisseurs d’Inference de Hugging Face pour une Inférence Serverless et Faible Latence

Prévoir les phénomènes météorologiques extrêmes en quelques minutes sans superordinateur : Huge Ensembles (HENS)

Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo

Le Playbook des Grands Maîtres Kaggle: 7 Techniques de Modélisation pour Données Tabulaires

NVIDIA RAPIDS 25.08 Ajoute un Nouveau Profiler pour cuML, Améliorations du moteur GPU Polars et Support d’Algorithmes Étendu