Alignement des modèles Vision-Language dans TRL : GRPO, GSPO, MPO et prise en charge SFT

Les modèles Vision-Language (VLMs) deviennent plus performants, mais leur alignement sur les préférences humaines demeure crucial. Dans TRL, nous avons déjà montré comment post-entraîner les VLMs avec le Fine-Tuning Supervisé (SFT) et l’Optimisation de Préférence Directe (DPO). Cette mise à jour pousse plus loin l’arsenal en introduisant trois méthodes d’alignement multimodal: Group Relative Policy Optimization (GRPO), sa variante Group Sequence Policy Optimization (GSPO), et Mixed Preference Optimization (MPO), ainsi qu’un support SFT natif pour les modèles vision-langage et des scripts d’entraînement et des notebooks pour démarrer rapidement. Ces méthodes visent à extraire davantage de signal des données de préférence et à mieux évoluer avec les VLMs modernes, sans compromettre la stabilité du entraînement. Cette synthèse s’appuie sur le billet de blog Hugging Face sur TRL VLM Alignment TRL VLM Alignment. Contexte et historique Les modèles Vision-Language fusionnent raisonnement visuel et textuel; les aligner sur les préférences humaines assure des réponses utiles et sûres dans diverses tâches. Historiquement, la démarche consistait à prendre un modèle de base, appliquer le SFT pour suivre les instructions, puis utiliser le DPO pour l’alignement sur les données de préférence. Dans le cadre VLM, ce flux a été adapté et validé sur IDEFICS2, montrant des améliorations des réponses du modèle. Le DPO apprend à partir de préférences entre deux réponses (une choisie et une rejetée) via une perte contrastive; le modèle est mis à jour pour privilégier l’option préférée. Au cours de l’année écoulée, des méthodes d’alignement multimodal comme GRPO et MPO ont gagné en traction pour leur capacité à exploiter les signaux de préférence de manière plus robuste et évolutive. TRL propose désormais un support natif pour ces méthodes en plus du SFT et du DPO, permettant aux chercheurs et ingénieurs d’agréger des signaux issus de plusieurs pertes et structures de récompense pour superviser le raisonnement multimodal. Quoi de neuf Cette mise à jour introduit trois méthodes d’alignement multimodal dans TRL, ainsi qu’un renforcement du support SFT et des outils d’entraînement. Voici un aperçu rapide de chaque méthode. À la fin du billet, un tableau compare les sorties des modèles.

Group Relative Policy Optimization (GRPO)

GRPO étend une approche initialement introduite pour l’optimisation de politiques à grande échelle en appliquant les mises à jour sur des groupes de trajectoires plutôt que sur des échantillons isolés. Dans TRL, ce regroupement aide à lisser le bruit de récompense au sein de chaque groupe, rendant l’apprentissage plus stable. Le modèle apprend ainsi un sens plus large de ce qui constitue une bonne réponse. Dans TRL, la prise en charge de GRPO pour les modèles vision-linguage est introduite, avec des conseils axés sur les concepts clés plutôt qu’un script d’entraînement complet dans l’article. Pour utiliser GRPO efficacement, on propose de définir deux fonctions de récompense, de créer un GRPOConfig et un GRPOTrainer, puis d’appeler train() pour lancer l’entraînement. Un notebook complet est disponible pour explorer le flux de travail en pratique.

Group Sequence Policy Optimization (GSPO)

GSPO est une évolution de GRPO qui résout certaines limitations en calculant les poids d’importance au niveau de la séquence plutôt qu’au niveau des tokens, ce qui est particulièrement utile pour les modèles MoE. TRL propose désormais le support du GSPO pour les modèles multimodaux, avec le même processus que GRPO mais des paramètres supplémentaires issus de l’article original.

Mixed Preference Optimization (MPO)

MPO est conçu pour les modèles multimodaux en combinant plusieurs pertes en un seul objectif: la perte de préférence DPO (sigmoïde), la perte de qualité issue de la Binary Classifier Optimization (BCO) et la perte de génération issue du SFT. Cette approche hybride vise à corriger les faiblesses d’un signal unique, comme des raisonnements incohérents ou des réponses répétitives. Dans les travaux cités, passer à cette perte combinée a conduit à des améliorations notables (par exemple, 6,2 points sur MathVista). Outre MPO, TRL ajoute le support nécessaire à la fusion des pertes dans la classe DPOTrainer, permettant aux chercheurs de configurer des pertes multiples dans le cadre DPO. Le billet fait également référence à un notebook complet qui illustre le flux de travail pratique. Pourquoi cela compte (impact pour les développeurs/entreprises) L’ajout de GRPO, GSPO et MPO enrichit le kit d’outils pour aligner les VLMs sur les préférences humaines. L’approche par groupes de GRPO aide à diminuer le bruit des récompenses et à stabiliser l’entraînement en apprenant des signaux contextuels plus larges, ce qui se traduit par une meilleure généralisation dans des prompts et environnements variés—un atout majeur pour les usages réels. GSPO, avec sa pondération par séquence, est particulièrement adapté aux architectures MoE en contexte multimodal, offrant potentiellement une formation plus stable et une meilleure gestion des ressources lors de l’échelle des VLMs. MPO, en combinant signaux DPO, BCO et SFT, peut conduire à une meilleure cohérence et à des comportements multimodaux plus robustes, avec moins de répétitions et d’erreurs de raisonnement. Pour les développeurs et les entreprises, disposer de ces méthodes dans TRL, notamment avec le SFT natif pour VLMs et des notebooks prêts-à-l’emploi, facilite l’expérimentation avec des techniques d’alignement avancées. Cela accélère les cycles d’itération, permet des études d’ablation plus claires et propose des pipelines de déploiement plus résilients face à des données de préférence évolutives. Le post met aussi en avant l’accessibilité: les API TRL permettent de configurer, entraîner et évaluer ces méthodes, avec des notebooks de référence. Pour les travaux sur TRL dans le domaine VLM, ces ajouts offrent une voie plus scalable vers un alignement multimodal de haute qualité, comme décrit dans le billet Hugging Face TRL VLM Alignment. Détails techniques ou Implementation (haut niveau)

MPO étend DPO avec une perte multi-signal: perte de préférence DPO (sigmoïde), perte de qualité BCO et perte de génération SFT.
Utilisation de MPO: configurer DPOConfig comme décrit dans la doc TRL et employer le DPOTrainer avec la perte combinée; pas besoin de changer fondamentalement le flux DPO.
GRPO utilisation: définir GRPOConfig et GRPOTrainer, créer deux fonctions de récompense et lancer train(). L’approche vise à être robuste au bruit grâce au regroupement des trajectoires; un notebook complet illustre le flux en pratique.
GSPO utilisation: GSPO suit le même flux que GRPO, avec des paramètres supplémentaires pour supporter l’échantillonnage d’importance au niveau de la séquence, adapté aux architectures MoE.
SFT et support VLM natif: TRL propose un support SFT natif pour les modèles vision-linguage, permettant un pipeline post-formation plus direct et compatible avec DPO, MPO, GRPO ou GSPO.
Contexte DPO: DPO reste un élément central pour aligner les VLMs sur les préférences humaines via des comparaisons par paires; MPO ajoute des signaux supplémentaires pour un alignement robuste dans le multimodal.
Notes pratiques: le post indique que GRPO ne dispose pas d’un script d’entraînement complet dans le billet, mais décrit les composants clés et le flux; un notebook détaille le flux GRPO en pratique. L’objectif est de valider les formats de réponses et d’aligner les signaux avec les jeux de données.
Configuration et entraînement: TRL a mis à jour DPOTrainer pour supporter la perte combinée; les utilisateurs peuvent créer DPOConfig et DPOTrainer et expérimenter avec MPO et pertes multiples dans le flux DPO. Le notebook de référence sert de guide pratique. Points clés
TRL inclut désormais GRPO, GSPO et MPO pour l’alignement des VLMs, en plus du SFT et du DPO natifs.
GRPO propose des mises à jour de politique en groupes qui réduisent le bruit de récompense et favorisent une compréhension plus globale de ce qui constitue une bonne réponse.
GSPO offre une pondération d’importance au niveau de la séquence, utile pour les architectures MoE et le entraînement multimodal stable.
MPO combine DPO, BCO et SFT pour un alignement multimodal plus cohérent et performant, avec des gains signalés sur des benchmarks pertinents.
Des scripts et notebooks sont fournis pour faciliter la mise en œuvre et l’expérimentation, avec des conseils sur la configuration des récompenses et de l’entraîneur.
Le post mentionne une table comparant les sorties des modèles selon les méthodes, illustrant les différences pratiques pour l’évaluation.
Cette approche élargit le flux SFT → DPO et propose des signaux plus riches et une robustesse accrue pour l’alignement multimodal. Voir le post Hugging Face pour les détails TRL VLM Alignment. FAQ
Q: Qu’est-ce que MPO dans TRL ? A: MPO est Mixed Preference Optimization, une extension du DPO pour modèles multimodaux qui combine la perte de préférence DPO, la perte de qualité BCO et la perte de génération SFT.
Q: Comment utiliser GRPO dans TRL ? A: Définissez deux fonctions de récompense, créez un GRPOConfig et un GRPOTrainer, puis lancez train() pour démarrer l’apprentissage à partir de trajectoires regroupées.
Q: Qu’est-ce que GSPO et quand est-il utile ? A: GSPO est Group Sequence Policy Optimization, une variante qui calcule les poids d’importance au niveau de la séquence, utile pour les architectures MoE et l’entraînement multimodal.
Q: SFT est-il toujours pris en charge pour les VLMs dans TRL ? A: Oui, un support SFT natif pour les modèles vision-linguage est inclus, permettant un pipeline post-formation direct avec DPO, MPO, GRPO ou GSPO.
Q: Où trouver des exemples ou notebooks pour démarrer ? A: Le billet de blog met en avant des notebooks et des exemples montrant les flux de travail et comment configurer l’entraîneur et les pertes; un notebook complet accompagne la version. Références
Hugging Face blog: TRL VLM Alignment (https://huggingface.co/blog/trl-vlm-alignment)

Alignement des modèles Vision-Language dans TRL : GRPO, GSPO, MPO et prise en charge SFT

Group Relative Policy Optimization (GRPO)

Group Sequence Policy Optimization (GSPO)

Mixed Preference Optimization (MPO)

More news

Scaleway rejoint les Fournisseurs d’Inference de Hugging Face pour une Inférence Serverless et Faible Latence

Rendez vos ZeroGPU Spaces plus rapides avec la compilation AoT de PyTorch

Rendez vos ZeroGPU Spaces plus rapides avec la compilation AoT de PyTorch

Apprentissage par renforcement avec NVIDIA NeMo-RL : Megatron-Core pour un débit d’entraînement optimisé

Générez des images avec Claude et Hugging Face : connexion via MCP et Spaces

Nemotron Nano 2: modèle ouvert de raisonnement en tête du classement, débit 6x supérieur