Alineación de Vision Language Models en TRL: GRPO, GSPO y MPO

Visión general

Los Vision Language Models (VLMs) están ganando potencia, pero alinear su comportamiento a las preferencias humanas sigue siendo crucial para un uso fiable. En TRL, ya mostramos cómo ajustar modelos VLMs con Fine-Tuning Supervisado (SFT) y Direct Preference Optimization (DPO). En las novedades, se añaden dos métodos de alineación multimodal: Group Relative Policy Optimization (GRPO) y Group Sequence Policy Optimization (GSPO), además de Mixed Preference Optimization (MPO). Estos métodos extraen más señal de los datos de preferencias y escalan mejor con VLMs modernos. TRL también añade soporte nativo para SFT en VLMs y publica scripts de entrenamiento y cuadernos de demostración para facilitar el inicio. DPO optimiza las preferencias entre pares de respuestas del modelo mediante una pérdida de contraste (escogido vs. rechazado). Aunque DPO sigue siendo un baseline sólido, GRPO, GSPO y MPO introducen señales más ricas y mayor estabilidad para entornos multimodales. MPO, en particular, extiende DPO con varias pérdidas: pérdida de preferencia DPO (sigmoide), pérdida de calidad de Binary Classifier Optimization (BCO) y pérdida de generación de SFT. Esta pérdida combinada puede aportar mejoras notables (p. ej., 6.2 puntos en MathVista según el trabajo citado). El equipo de TRL ha añadido soporte para esta pérdida combinada en la clase DPOTrainer, facilitando la experimentación. Un cuaderno completo demuestra cómo usar MPO en la práctica. GRPO (Group Relative Policy Optimization) es un método de alineación de vanguardia, originado en DeepSeek Math y luego integrado en DeepSeek R1. Amplía PPO actualizando la política sobre grupos de trayectorias (lotes de despliegue de diálogos), lo que ayuda a promediar el ruido de recompensa y fomenta un concepto más amplio de una buena respuesta. TRL añade soporte GRPO para modelos VLM, con funciones de recompensa elaboradas para el marco multimodal. Para que el entrenamiento funcione, se crea un GRPOConfig y un GRPOTrainer, se pasan las funciones de recompensa definidas y se llama a train(). Hay un cuaderno completo disponible para referencia. GSPO (Group Sequence Policy Optimization) es una variante de GRPO que resuelve limitaciones mediante el uso de pesos de muestreo de importancia a nivel de secuencia en lugar de por token. Sus beneficios son más relevantes en modelos tipo MoE. La última versión de TRL también incluye soporte para GSPO con capacidad multimodal, siguiendo un flujo similar a GRPO pero con parámetros extraídos del artículo original. El cuaderno asociado ofrece una guía breve. En conjunto, estas técnicas, junto con el soporte nativo de SFT para VLMs, ofrecen un conjunto de opciones para alinear modelos multimodales con preferencias humanas y para superar limitaciones observadas con SFT simple o con configuraciones DPO. El blog también incluye una tabla que resume las diferencias entre las respuestas del modelo.

Anteriormente, alinear VLMs con instrucciones mediante SFT puede fallar debido a desplazamiento de distribución en tareas de razonamiento. Los modelos alineados con DPO cumplen con las preferencias, pero pueden generar razonamientos poco coherentes o respuestas repetitivas. Para abordar esto, existe MPO, que combina pérdidas para equilibrar generación, calidad y preferencias multimodales. Esta técnica puede escalar a modelos grandes y conjuntos de datos más diversos, y se acompaña de cuadernos de ejemplo.

Características clave

Métodos multimodales: GRPO, GSPO y MPO para VLMs.
MPO combina tres pérdidas: pérdida de preferencia DPO (sigmoide), pérdida de calidad de BCO y pérdida de generación de SFT.
MPO ha mostrado mejoras de rendimiento (p. ej., 6,2 puntos en MathVista en el estudio citado).
Mejoras de DPOTrainer: MPO se puede usar habilitando una pérdida combinada en DPOConfig y DPOTrainer.
GRPO amplía PPO con actualizaciones por grupo de trayectorias, reduciendo el ruido de recompensa.
GSPO ofrece estabilidad con pesos de importancia a nivel de secuencia, relevante para modelos con MoE.
Soporte nativo de SFT para VLMs con scripts de entrenamiento y cuadernos.
Guías prácticas mediante cuadernos, incluido un ejemplo completo de alineamiento multimodal.
Discusión honesta de límites: SFT puro puede fallar en tareas de razonamiento; DPO puede generar razonamientos repetitivos; MPO aborda estas limitaciones.

Casos de uso comunes

Alinear VLMs a preferencias humanas para tareas que combinan visión y lenguaje, como seguir instrucciones multimodales, razonamiento con contexto de imagen y generación de justificantes.
Aprovechar señales de preferencia más ricas para mejorar más allá de las comparaciones por pares, especialmente con grandes conjuntos de datos multimodales.
Mitigar desplazamientos de distribución asociados con pipelines basados solo en SFT al incorporar métodos de optimización de políticas (GRPO/GSPO) y señales multimodales (MPO).
Mejorar la coherencia y reducir repeticiones en justificantes mediante la combinación de pérdidas (DPO, BCO, SFT).
Escalar experimentos a modelos grandes y conjuntos de datos más amplios usando actualizaciones por grupo o por secuencia en GRPO/GSPO.
Validar enfoques con cuadernos dedicados y ejemplos que acompañan las liberaciones de TRL.

Setup & instalación

Los detalles de configuración e instalación no se describen en el extracto. El proyecto TRL ofrece scripts de entrenamiento y cuadernos para experimentar con GRPO, GSPO, MPO y SFT para VLMs, pero los comandos exactos, entornos y dependencias no están especificados aquí. Consulte el blog y los cuadernos para ejemplos prácticos.

Not specified in the source.

Inicio rápido

Un ejemplo mínimo ejecutable no está proporcionado en el extracto. El blog menciona un cuaderno completo para explorar los métodos, e indica cómo inicializar DPOConfig y DPOTrainer para MPO, y flujos GRPO/GSPO con funciones de recompensa. Consulte el cuaderno vinculado para empezar rápidamente.

Not provided in the source.

Pros y contras

Pros
GRPO reduce el ruido de recompensa al actualizar sobre grupos de trayectorias, promoviendo una noción más amplia de una buena respuesta.
GSPO ofrece estabilidad de entrenamiento al usar pesos de importancia a nivel de secuencia, relevante para modelos MoE.
MPO proporciona señales de entrenamiento más ricas al combinar DPO, BCO y pérdidas de SFT.
Soporte nativo de SFT para VLMs simplifica los pipelines de entrenamiento.
Contras
El script completo de entrenamiento para GRPO no siempre está incluido en el artículo; se depende de los cuadernos para la implementación.
SFT por sí solo puede presentar límites en tareas de razonamiento y DPO puede generar razonamientos repetitivos; MPO intenta mitigar estas: limitaciones requieren más experimentación.
Entrenar alineamientos multimodales puede requerir modelos grandes, datos amplios y mucha capacidad computacional.

Alternativas (resumen)

| Método | Idea central | Fortalezas | Desventajas |---|---|---|---| | SFT | Ajuste fino supervisado | Fácil de implementar; alinea con instrucciones | Pueden haber desplazamientos de distribución en razonamiento; no modela preferencias explícitas |DPO | Optimización de preferencia par a par | Alinea directamente a preferencias | Puede generar razonamientos menos coherentes y repetitivos |MPO | DPO + BCO + pérdidas SFT | Objetivo multimodal rico; mejoras reportadas | Complejo de ajustar; balancear pérdidas |GRPO | Actualizaciones por grupo | Robusto al ruido de recompensa | Puede carecer de scripts completos; elecciones de agrupación importan |GSPO | Peso de importancia a nivel de secuencia | Estable para MoE | Implementación más compleja podría requerir ajuste |

Licencia o precios

La fuente no especifica licencia ni precios. Para términos de uso, consulte el repositorio TRL y el blog de Hugging Face.

Referencias

https://huggingface.co/blog/trl-vlm-alignment

Alineación de Vision Language Models en TRL: GRPO, GSPO y MPO

Visión general

Características clave

Casos de uso comunes

Setup & instalación

Inicio rápido

Pros y contras

Alternativas (resumen)

Licencia o precios

Referencias

More resources

Haz ZeroGPU Spaces más rápido con la compilación ahead-of-time (AoT) de PyTorch

Generar imágenes con Claude y Hugging Face: herramientas, instalación y ejemplos

Nemotron Nano 2 9B: Modelo de razonamiento abierto con 6x de rendimiento para Edge y Empresa

De cero a GPU: Guía para construir y escalar kernels CUDA listos para producción

De cero al GPU: Guía para construir y escalar kernels CUDA listos para producción

MCP para la Investigación: Conectar IA a Herramientas de Investigación