Alineación de Modelos de Visión-Lenguaje en TRL: GRPO, GSPO, MPO y Soporte SFT

Los Modelos Visión-Lenguaje (VLMs) están ganando potencia, pero alinear su comportamiento con las preferencias humanas sigue siendo fundamental. En TRL, ya mostramos cómo post-entrenar VLMs con Fine-Tuning Supervisado (SFT) y Optimización de Preferencias Directa (DPO). Esta actualización amplía el conjunto de herramientas al presentar tres métodos de alineación multimodal: Group Relative Policy Optimization (GRPO), su variante Group Sequence Policy Optimization (GSPO) y Mixed Preference Optimization (MPO), junto con soporte nativo para SFT y notebooks y scripts de entrenamiento para facilitar el inicio. Estos métodos buscan extraer más señal de los datos de preferencia y escalar mejor con VLMs modernos, mejorando la calidad del alineamiento sin sacrificar la estabilidad del entrenamiento. Este resumen se basa en la entrada del blog de Hugging Face sobre TRL VLM Alignment TRL VLM Alignment. Contexto y antecedentes Los Modelos Visión-Lenguaje combinan razonamiento visual y textual, y alinear su comportamiento a las preferencias humanas ayuda a garantizar respuestas útiles y seguras en diversas tareas. Históricamente, la gente tomaba un modelo base, aplicaba SFT para seguir instrucciones y luego empleaba DPO para alinear con datos de preferencia. En el ámbito de VLM, este flujo se adaptó y validó en IDEFICS2, mostrando mejoras en las respuestas del modelo. DPO opera optimizando preferencias entre pares de respuestas (una elegida y una rechazada) usando una pérdida contrastiva; el modelo se ajusta para favorecer la opción preferida. Durante el último año, métodos de alineación multimodal como GRPO y MPO han ganado popularidad por su capacidad para extraer señales de preferencia de forma más robusta y escalable. TRL ahora incluye soporte nativo para estos métodos, además de SFT y DPO, permitiendo a investigadores y programadores combinar señales de múltiples pérdidas y estructuras de recompensa para supervisar el razonamiento multimodal. Qué hay de nuevo Esta actualización incorpora tres métodos multimodales en TRL, junto con un refuerzo del soporte SFT y herramientas de entrenamiento. A continuación, un repaso rápido de cada método. Cabe señalar que al final del artículo original hay una tabla que compara las salidas de los modelos.

Group Relative Policy Optimization (GRPO)

GRPO amplía un enfoque de optimización de políticas para grandes sistemas, aplicando actualizaciones sobre grupos de trayectorias (conjuntos de secuencias de diálogo) en lugar de traçar un solo tramo. En TRL, este agrupamiento ayuda a promediar el ruido de recompensa dentro de cada grupo, haciendo el aprendizaje más estable. El resultado es un modelo que aprende un sentido más amplio de qué constituye una buena respuesta, en lugar de perseguir muestras de alta recompensa aisladas. En TRL, se presenta el soporte de GRPO para modelos vision-lenguaje, con orientación hacia conceptos clave en lugar de un script de entrenamiento completo en el artículo. Para que el entrenamiento con GRPO funcione bien, se proponen definir dos funciones de recompensa, crear un GRPOConfig y un GRPOTrainer, y llamar a train() para iniciar el entrenamiento. Un cuaderno completo está disponible para explorar el flujo de trabajo en la práctica.

Group Sequence Policy Optimization (GSPO)

GSPO es una refinación de GRPO que resuelve limitaciones al calcular pesos de muestreo de importancia a nivel de secuencia en lugar de por token. Sus beneficios son especialmente relevantes para modelos tipo MoE. TRL ahora incluye soporte para GSPO en modelos multimodales, siguiendo el mismo proceso que GRPO, pero con parámetros adicionales tomados del artículo.

Mixed Preference Optimization (MPO)

MPO está diseñado para modelos multimodales combinando múltiples pérdidas en un único objetivo: la pérdida de preferencia de DPO (sigmoide), la pérdida de calidad de Binary Classifier Optimization (BCO) y la pérdida de generación de SFT. Este enfoque mixto aborda debilidades de depender de una sola señal, como razonamientos inconsistentes o respuestas repetitivas. En trabajos reportados, cambiar a esta pérdida combinada dio mejoras notables (p. ej., 6,2 puntos en MathVista), lo que ilustra el potencial de MPO para mejorar el razonamiento y la generación multimodal. Además de MPO, TRL agrega el soporte necesario para la combinación de pérdidas en la clase DPOTrainer, permitiendo a los investigadores configurar pérdidas múltiples dentro del flujo DPO. El artículo también señala un cuaderno completo que ilustra el flujo de trabajo práctico. Por qué importa (impacto para desarrolladores/empresas) La introducción de GRPO, GSPO y MPO amplía el conjunto de herramientas para alinear VLMs con las preferencias humanas. El enfoque basado en grupos de GRPO ayuda a reducir el ruido de recompensa y a estabilizar el entrenamiento al aprender señales contextuales más amplias, lo que se traduce en una mejor generalización en distintos prompts y entornos—un beneficio clave para implementaciones reales. GSPO, con su muestreo de importancia a nivel de secuencia, es particularmente útil para arquitecturas MoE en contextos multimodales, y puede traer un entrenamiento más estable y una mejor gestión de recursos al escalar VLMs en entornos empresariales. MPO aborda directamente los desafíos de alineamiento multimodal combinando señales DPO, BCO y SFT, lo que puede dar como resultado un comportamiento multimodal más coherente y menos respuestas repetitivas. Para desarrolladores y compañías, disponer de estas técnicas en TRL, junto con el SFT nativo para VLMs y cuadernos listos para usar, facilita la experimentación con enfoques avanzados de alineación. Esto permite ciclos de iteración más rápidos, estudios de ablación más claros y pipelines de despliegue más robustos ante datos de preferencia que evolucionan. El post de TRL también subraya la accesibilidad: las APIs de TRL permiten configurar, entrenar y evaluar estas técnicas, con cuadernos de referencia para guiar el flujo de trabajo. Si trabajas con TRL para VLMs, estas adiciones ofrecen un camino escalable hacia un alineamiento multimodal de alta calidad, como se describe en el blog de Hugging Face TRL VLM Alignment. Detalles técnicos o implementación (alto nivel)

MPO amplía DPO con una pérdida multi-signal: pérdida de preferencia DPO (sigmoide), pérdida de calidad BCO y pérdida de generación SFT.
Uso de MPO: configurar DPOConfig como se describe en la documentación de TRL y usar DPOTrainer con la pérdida combinada; no es necesario reemplazar el flujo DPO central.
GRPO uso: definir GRPOConfig y GRPOTrainer, crear dos funciones de recompensa y ejecutar train(). El enfoque busca robustez ante ruido de recompensa mediante el agrupamiento de trayectorias; un cuaderno completo ilustra el flujo en la práctica.
GSPO uso: GSPO sigue el mismo flujo que GRPO, con parámetros adicionales para soportar el muestreo de importancia a nivel de secuencia; útil para MoE y arquitectura multimodal.
Soporte SFT y VLM nativo: TRL ofrece soporte nativo a SFT para modelos vision-linguaje, permitiendo un pipeline de post-entrenamiento directo que se puede combinar con DPO, MPO, GRPO o GSPO.
Contexto DPO: DPO sigue siendo un componente central para alinear VLMs a preferencias humanas, aprendiendo a partir de pares de respuestas. MPO añade señales adicionales para un mejor alineamiento multimodal.
Notas prácticas: el post indica que GRPO no incluye un script de entrenamiento completo en el artículo, pero describe los componentes clave y el flujo; un cuaderno completo demuestra el flujo GRPO en la práctica. El objetivo es validar el formato de las respuestas y alinear las señales con los conjuntos de datos.
Configuración y entrenamiento: TRL actualizó DPOTrainer para soportar la pérdida combinada; los usuarios pueden crear DPOConfig y DPOTrainer para experimentar con pérdidas múltiples dentro del flujo DPO. El cuaderno de referencia funciona como guía. Conclusiones clave
TRL ahora soporta GRPO, GSPO y MPO para el alineamiento de VLMs, además de SFT y DPO nativos.
GRPO propone actualizaciones de política en grupos que reducen el ruido de recompensa y promueven una comprensión más amplia de lo que constituye una buena respuesta.
GSPO ofrece pesos de importancia a nivel de secuencia, útil para arquitecturas MoE y entrenamiento multimodal estable.
MPO combina DPO, BCO y SFT para un alineamiento multimodal más sólido, con mejoras reportadas en benchmarks relevantes.
Se disponen scripts de entrenamiento y notebooks para facilitar la implementación, con guías sobre la configuración de recompensas y del entrenador.
El post incluye una tabla que compara salidas de modelos entre métodos, ilustrando diferencias prácticas para la evaluación.
Esta aproximación amplía el flujo SFT → DPO y ofrece señales más ricas y mayor robustez para el alineamiento multimodal. Consulta el post de Hugging Face para más detalles TRL VLM Alignment. FAQ
Q: ¿Qué es MPO en TRL? A: MPO es Mixed Preference Optimization, una extensión del DPO para modelos multimodales que combina la pérdida de preferencia DPO, la pérdida de calidad BCO y la pérdida de generación SFT.
Q: ¿Cómo usar GRPO en TRL? A: Define dos funciones de recompensa, crea un GRPOConfig y un GRPOTrainer, y ejecuta train() para iniciar el aprendizaje a partir de trayectorias agrupadas.
Q: ¿Qué es GSPO y cuándo es ventajoso? A: GSPO es Group Sequence Policy Optimization, una variante que calcula pesos de importancia a nivel de secuencia, útil para arquitecturas MoE y aprendizaje multimodal estable.
Q: ¿SFT sigue siendo compatible con VLMs en TRL? A: Sí, hay soporte SFT nativo para modelos visión-linguaje, permitiendo un pipeline de post-entrenamiento directo con DPO, MPO, GRPO o GSPO.
Q: ¿Dónde puedo encontrar ejemplos o notebooks para empezar? A: El post del blog señala notebooks y ejemplos que muestran los flujos de trabajo y cómo configurar el entrenador y las pérdidas; un notebook completo acompaña la versión. Referencias
Hugging Face blog: TRL VLM Alignment (https://huggingface.co/blog/trl-vlm-alignment)

Alineación de Modelos de Visión-Lenguaje en TRL: GRPO, GSPO, MPO y Soporte SFT

Group Relative Policy Optimization (GRPO)

Group Sequence Policy Optimization (GSPO)

Mixed Preference Optimization (MPO)

More news

Scaleway se une a los Proveedores de Inferencia de Hugging Face para Inferencia Serverless y de Baja Latencia

Acelera ZeroGPU Spaces con la compilación AoT de PyTorch

Haz que tus ZeroGPU Spaces vayan más rápido con la compilación AoT de PyTorch

Generar imágenes con Claude y Hugging Face: conectar Claude a Spaces vía MCP

Nuevo Nemotron Nano 2: modelo de razonamiento abierto líder con 6x de rendimiento

De Cero a GPU: Construcción y Escalado de Kernels CUDA Listos para Producción con Kernel Builder