Alignement des Vision Language Models dans TRL : GRPO, GSPO et MPO

Aperçu

Les Vision Language Models (VLMs) gagnent en puissance, mais leur alignement sur les préférences humaines reste crucial pour une utilisation fiable. Dans TRL, nous avons montré précédemment le post-entraînement des VLMs avec le Fine-Tuning Supervisé (SFT) et l’optimisation directe des préférences (DPO). Les nouveautés introduisent deux méthodes d’alignement multimodales : Group Relative Policy Optimization (GRPO) et Group Sequence Policy Optimization (GSPO), ainsi que Mixed Preference Optimization (MPO). Ces méthodes extraient davantage de signal à partir des données de préférences et se déploient mieux avec les VLMs modernes. TRL propose également le support natif du SFT pour les VLMs, et la mise en place de scripts d’entraînement et de notebooks de démonstration. DPO ajuste les préférences entre paires de réponses du modèle via une perte contrastive (choisi vs rejeté). Bien que DPO reste une base solide, GRPO, GSPO et MPO apportent des signaux plus riches et une meilleure stabilité en contexte multimodal. MPO, en particulier, étend DPO avec plusieurs pertes : perte de préférence DPO (sigmoïde), perte de qualité du Binary Classifier Optimization (BCO) et perte de génération du SFT. Cette perte combinée peut permettre des gains notables (ex. 6,2 points sur MathVista dans l’étude citée). L’équipe TRL a ajouté le support de cette perte combinée dans la classe DPOTrainer pour faciliter l’expérimentation. Un notebook complet montre comment utiliser MPO en pratique. GRPO est une méthode d’alignement de pointe, initialement introduite dans DeepSeek Math et intégrée ensuite à DeepSeek R1. Elle complète PPO en effectuant des mises à jour de politique sur des groupes de trajectoires (lots de déroulement de dialogue), ce qui permet d’atténuer le bruit de récompense et d’encourager une notion plus générale d’une bonne réponse. TRL ajoute le support GRPO pour les modèles VLM, avec des fonctions de récompense adaptées au cadre multimodal. Pour faire fonctionner le script d’entraînement, on crée un GRPOConfig et un GRPOTrainer, on fournit les fonctions de récompense et on lance train(). Un exemple de notebook est disponible. GSPO (Group Sequence Policy Optimization) est une variante de GRPO qui calcule les poids d’importance au niveau de la séquence plutôt qu’au niveau du token. Ses avantages sont plus marqués lors d’un entraînement sur des modèles MoE. La dernière version de TRL inclut le GSPO avec un support multimodal; le processus est similaire à GRPO, avec des paramètres issus de l’article original. Le notebook associé propose un aperçu concis. Ensemble, et avec le support natif du SFT pour les VLMs, ces méthodes offrent un éventail d’options pour aligner des modèles multimodaux sur les préférences humaines, tout en abordant les limites observées avec l’SFT seul ou le DPO standard. Le billet mentionne également un tableau comparatif des différences entre les réponses du modèle.

Par le passé, aligner des VLMs avec des instructions via SFT peut souffrir d’un décalage de distribution lorsque des tâches de raisonnement sont requises. Les modèles alignés via DPO répondent bien aux préférences, mais peuvent générer des raisonnements incohérents ou répétitifs. MPO vise à combler ces lacunes en combinant des composantes de perte qui encouragent la génération de qualité, le respect des préférences et l’expression fluide. Cette combinaison est conçue pour scaler à des modèles plus grands et des jeux de données plus variés, avec des notebooks pratiques fournis.

Caractéristiques clés

Méthodes d’alignement multimodales : GRPO, GSPO et MPO pour les VLMs.
MPO combine trois pertes: perte de préférence DPO (sigmoïde), perte de qualité du BCO et perte de génération du SFT.
MPO a montré des gains de performance (ex. 6,2 points sur MathVista dans l’étude citée).
Améliorations du DPOTrainer : MPO peut être utilisé en activant une perte combinée via DPOConfig et DPOTrainer.
GRPO étend le PPO par des mises à jour par groupe de trajectoires, rendant l’optimisation plus robuste au bruit de récompense.
GSPO offre une stabilité via l’estimation des poids d’importance au niveau de la séquence, utile pour les architectures MoE.
Support natif du SFT pour les VLMs avec scripts d’entraînement et notebooks.
Guides pratiques via les notebooks, y compris un exemple complet d’alignement multimodal.
Discussion ouverte sur les limites : le SFT seul peut souffrir pour les tâches de raisonnement; le DPO peut produire des raisonnements répétitifs; MPO tente d’atténuer ces limites.

Cas d’utilisation courants

Aligner des VLMs sur les préférences humaines pour des tâches combinant vision et langage, comme le suivi d’instructions multimodales, le raisonnement avec le contexte d’image, et la génération de justifications.
Exploiter des signaux de préférence plus riches pour s’améliorer au-delà des comparaisons par paires, particulièrement avec de grands jeux de données et modèles multimodaux variés.
Atténuer les décalages de distribution associés à des pipelines SFT seuls en intégrant des méthodes d’optimisation de politique (GRPO/GSPO) et des signaux multimodaux (MPO).
Améliorer la cohérence et réduire les répétitions des raisonnements grâce à la combinaison des pertes (DPO, BCO, SFT).
Évoluer vers des modèles plus grands et des jeux de données plus riches en s’appuyant sur des mises à jour par groupe ou par séquence dans GRPO/GSPO.
Valider les approches à l’aide des notebooks dédiés et des exemples fournis avec les releases TRL.

Setup & installation

Les détails de configuration et d’installation ne sont pas fournis dans l’extrait. Le projet TRL propose des scripts d’entraînement et des notebooks pour expérimenter GRPO, GSPO, MPO et SFT pour les VLMs, mais les commandes exactes, les environnements et les dépendances ne sont pas explicités ici. Reportez-vous au billet et aux notebooks pour des exemples concrets.

Not specified in the source.

Démarrage rapide

Un exemple minimal prêt à l’emploi n’est pas fourni dans l’extrait. Le billet mentionne cependant un notebook complet pour explorer les méthodes et indique comment initialiser DPOConfig et DPOTrainer pour MPO, ainsi que les flux GRPO/GSPO avec des fonctions de récompense. Consultez le notebook associé pour démarrer rapidement.

Not provided in the source.

Avantages et inconvénients

Avantages
GRPO réduit le bruit de récompense en s’appuyant sur des groupes de trajectoires, favorisant une notion plus large d’une bonne réponse.
GSPO offre une stabilité d’entraînement grâce au poids d’importance au niveau de la séquence, particulièrement pertinent pour les architectures MoE.
MPO fournit des signaux d’entraînement plus riches par la combinaison de DPO, BCO et SFT, avec des gains rapportés dans MathVista.
Le support SFT natif pour les VLMs simplifie les pipelines d’entraînement end-to-end.
Inconvénients
Le script d’entraînement complet pour GRPO n’est pas nécessairement inclus dans l’article ; les utilisateurs doivent se référer aux notebooks pour l’implémentation.
Le SFT seul peut présenter des limites dans les tâches de raisonnement, et DPO peut générer des raisonnements répétitifs ; MPO offre une alternative pour atténuer ces tendances.
L’entraînement d’alignements multimodaux peut nécessiter de grands modèles, des données importantes et des ressources de calcul substantielles.

Alternatives (comparaison rapide)

| Méthode | Idée centrale | Points forts | Inconvénients |---|---|---|---| | SFT | Fine-tuning supervisé | Facile à mettre en œuvre; aligne sur les instructions | Peut souffrir d’un décalage distributionnel en raisonnement; ne modèle pas explicitement les préférences |DPO | Optimisation de préférence paire | Aligne directement les préférences utilisateur | Peut produire des raisonnements moins cohérents et des répétitions |MPO | DPO + BCO + pertes SFT | Objectif multimodal riche; gains rapportés | Plus complexe à régler; nécessite un équilibrage des pertes |GRPO | Mises à jour par groupe | Robuste au bruit de récompense | Tous les cas d’utilisation ne disposent pas d’un script complet |GSPO | Poids d’importance au niveau de la séquence | Stable pour les architectures MoE | Implémentation potentiellement plus complexe |

Licence ou tarification

Aucune information explicite sur la licence ou les tarifs n’est indiquée dans la source. Pour les termes d’utilisation, consultez le dépôt TRL et le blog Hugging Face.