Fine-Tuning gpt-oss pour la précision et les performances avec l’entraînement par quantisation (QAT)
Sources: https://developer.nvidia.com/blog/fine-tuning-gpt-oss-for-accuracy-and-performance-with-quantization-aware-training, https://developer.nvidia.com/blog/fine-tuning-gpt-oss-for-accuracy-and-performance-with-quantization-aware-training/, NVIDIA Dev Blog
Aperçu
Le fine-tuning de gpt-oss pour la précision et les performances exploite un flux en deux étapes associant un ajustement supervisé (SFT) à haute précision et une formation sensible à la quantisation (QAT) pour récupérer l’exactitude visée en FP4. L’approche se concentre sur un sur-casto vers une précision supérieure afin de stabiliser les gradients, puis l’application d’un QAT pour adapter les poids au format FP4 de faible précision, tout en préservant l’efficacité de déploiement. Ce flux est démontré sur gpt-oss, la famille de modèles open-source avec une architecture MoE et une longueur de contexte de 128K, la variante la plus importante étant gpt-oss-120B. Le code complet est disponible dans le référentiel Model Optimizer et a été adapté à partir des gpt-oss-recipes de Hugging Face pour intégrer QAT et les composants associés. Le défi principal est de récupérer la précision FP4 tout en conservant l’efficacité des faibles précisions pour l’inférence. En passant par BF16 pour le SFT puis en appliquant QAT afin d’ajuster les poids à MXFP4, on renforce le comportement spécifique à la tâche et on aligne les poids sur le format à faible précision souhaité. Les résultats démontrent des gains significatifs sur des tâches en aval et pointent vers une convergence encore plus serrée avec le support NVFP4 à venir.
Caractéristiques clés
- Flux d’ajustement en deux étapes : SFT à haute précision suivi d’un QAT pour FP4.
- Mécanisme de montée en précision : montée vers BF16 pour une accumulation de gradients stable avant le QAT.
- Formats FP4 : MXFP4 comme cible initiale, avec NVFP4 comme variante FP4 prochaine en vue.
- Portée du modèle : gpt-oss avec architecture MoE, 128K de contexte, jusqu’à gpt-oss-120B.
- Disponibilité du code : le chef d’ouvrage complet est fourni dans le répertoire Model Optimizer de NVIDIA.
- Améliorations pratiques : deux tâches en aval améliorées de 16% et 30% en taux de réussite à 98% après la recette.
- Avantages du NVFP4 : le NVFP4 montre une convergence meilleure et une perte de validation 2–3% plus faible que MXFP4 dans la même suite.
- Préparation à l’écosystème : support NVFP4 à venir dans TensorRT-LLM et priorité d’intégration dans d’autres frameworks d’inférence open-source.
- Flux de déploiement : après l’ajustement FP4, un script pratique exporte les checkpoints BF16 entraînés vers MXFP4, avec validation sur SGLang, TensorRT-LLM et vLLM ; déploiement démontré via TensorRT-LLM 1.1.0rc1.
- Avenir : NVFP4 vise une convergence plus serrée et des marges accrues pour des seuils plus stricts et un raisonnement plus profond.
Cas d’utilisation courants
- Améliorer le raisonnement en langues non anglaises et les comportements spécifiques à la tâche à l’aide de données multilingues (ensembles OpenAI Cookbook).
- Réduire les refus inutiles de prompts sûrs (ensembles FalseReject d’Amazon).
- Déployer de grands modèles open-source dans des environnements de production nécessitant une faible tolérance aux pannes (santé, finance).
- Préparer les modèles pour le matériel et les cadres futurs (support NVFP4 pour TensorRT-LLM et autres frameworks d’inférence).
Mise en place & installation
Les détails de mise en place et d’installation sont décrits dans le répertoire Model Optimizer référencé par NVIDIA. Le texte précise que les commandes exactes ne sont pas fournies dans l’article et que les utilisateurs doivent consulter le dépôt pour le code et les scripts du flux SFT + QAT et de l’export FP4.
# Commandes de setup non fournies dans la source. Consultez le dépôt Model Optimizer pour les étapes exactes.
Démarrage rapide
Le flux est conçu comme un processus en deux étapes : monter vers une meilleure précision pour le SFT, puis appliquer le QAT pour revenir au FP4 cible, suivi de l’export du checkpoint pour déploiement. Voici une vue d’ensemble de haut niveau (les commandes exactes appartiennent au dépôt Model Optimizer et à la documentation associée).
- Démarrez à partir d’un checkpoint gpt-oss (par ex. gpt-oss-120B).
- Montez vers BF16 et effectuez un fine-tuning supervisé (SFT).
- Appliquez le QAT pour aligner les poids sur MXFP4 de faible précision.
- Exportez le checkpoint FP4 dans un format compatible PyTorch via l’outil d’export fourni.
- Validez sur les tâches en aval et préparez le déploiement avec TensorRT-LLM. Note : l’article indique que sauter l’étape SFT haute précision et passer directement au QAT donne des résultats de précision inférieurs ; l’approche en deux étapes est donc recommandée.
# Démarrage rapide placeholder (conceptuel)
print("Consultez le répertoire NVIDIA Model Optimizer pour les étapes exécutable exactes.")
Avantages et inconvénients
- Avantages
- Restaure la précision après entraînement tout en conservant l’efficacité du FP4 en déploiement.
- Le sur-casto vers une précision supérieure permet une accumulation stable des gradients lors du SFT avant le QAT.
- MXFP4 et NVFP4 offrent des voies pratiques pour l’inférence FP4 avec une convergence améliorée (NVFP4 affiche une convergence meilleure et une perte de validation 2–3% inférieure à MXFP4 dans les comparaisons).
- Le flux donne des taux de réussite élevés dans les tâches en aval (par exemple, 98% sur deux tâches spécifiques).
- Des outils pratiques permettent d’exporter des checkpoints BF16 entraînés vers MXFP4 pour le déploiement et la validation sur plusieurs frameworks.
- Inconvénients
- Requiert un flux en deux étapes (complexité accrue).
- Le support NVFP4 est à venir ; l’intégration complète avec TensorRT-LLM et d’autres frameworks n’est pas encore universelle.
- Les commandes exactes et le code proviennent du répertoire Model Optimizer, ce qui introduit une dépendance à une documentation externe.
Alternatives (brève comparaison)
| Approche | Remarques | Avantages | Inconvénients |---|---|---|---| | MXFP4 avec SFT + QAT (flux actuel) | Flux en deux étapes pour la récupération FP4 | Restaure la précision, conserve l’efficacité FP4 | Nécessite upcasting et flux QAT, peut nécessiter un ajustement du modèle |NVFP4 avec SFT + QAT (à venir) | FP4 optimisé pour l’entraînement sur matériel Blackwell | Convergence potentiellement plus serrée; perte de validation 2–3% plus faible | Disponibilité dépendante du support TensorRT-LLM et d’autres frameworks; modifications éventuelles du code |SFT seul (sans QAT) | Pas le chemin conseillé | Flux plus simple | Probablement pas d’obtention de la précision FP4 nécessaire pour le déploiement |
Prix ou licence
Les détails de licence ou de tarification ne sont pas fournis dans l’article.
Références
- https://developer.nvidia.com/blog/fine-tuning-gpt-oss-for-accuracy-and-performance-with-quantization-aware-training/
- Le contenu mentionne l’intégration avec Hugging Face’s gpt-oss-recipes et le répertoire Model Optimizer pour le code complet et le flux.
More resources
CUDA Toolkit 13.0 pour Jetson Thor : Écosystème Arm Unifié et Plus
Kit CUDA unifié pour Arm sur Jetson Thor avec cohérence mémoire complète, partage du GPU entre processus, interop OpenRM/dmabuf, support NUMA et outils améliorés pour l’embarqué et le serveur.
Réduire les coûts de déploiement des modèles tout en conservant les performances grâce au swap de mémoire GPU
Exploitez le swap mémoire GPU (hot-swapping de modèles) pour partager les GPUs entre plusieurs LLM, réduire les coûts inoccupés et améliorer l’auto-Scaling tout en respectant les SLA.
Amélioration de l’auto-tuning GEMM avec nvMatmulHeuristics dans CUTLASS 4.2
Présente nvMatmulHeuristics pour sélectionner rapidement un petit ensemble de configurations de kernels GEMM à fort potentiel pour CUTLASS 4.2, réduisant considérablement le temps de tuning tout en approchant les performances d’une Recherche Exhaustive.
Comment les petits modèles linguistiques contribuent à une IA agentique évolutive
Explique comment les petits modèles linguistiques permettent une IA agentique plus rentable et flexible, aux côtés des LLMs, via NVIDIA NeMo et Nemotron Nano 2.
Guide de démarrage NVIDIA Isaac pour la santé : flux de télésurgrapie
Flux télésurgerie modulaire et prêt pour la production de NVIDIA Isaac for Healthcare, unifiant la simulation et le déploiement clinique via une architecture à faible latence sur trois ordinateurs. Couvre streaming vidéo/sensoriel, contrôle robotique, haptiques et simulation.
Améliorer les performances des kernels CUDA avec le déversement des registres vers la mémoire partagée (CUDA 13.0)
CUDA 13.0 introduit le déversement des registres dans la mémoire partagée pour réduire la pression sur la mémoire locale lorsque l'espace est disponible. Activation via PTX inline après la déclaration de la fonction; gains typiques de 5–10% sur les charges à forte pression de registres.