Alinhamento de Vision Language Models no TRL: GRPO, GSPO e MPO

Visão geral

Modelos de Visão-Linguagem (VLMs) estão cada vez mais potentes, mas alinhá-los às preferências humanas continua sendo essencial para uso confiável no mundo real. No TRL, mostramos anteriormente o pós-treinamento de VLMs com Fine-Tuning Supervisionado (SFT) e Direct Preference Optimization (DPO). As novidades trazem dois métodos de alinhamento multimodal: Group Relative Policy Optimization (GRPO) e Group Sequence Policy Optimization (GSPO), além de Mixed Preference Optimization (MPO). Esses métodos extraem mais sinal de dados de preferência e escalonam melhor com modelos modernos de VLMs. O TRL também passa a oferecer suporte nativo a SFT para visão-linguagem, e o projeto disponibiliza scripts de treinamento e notebooks de demonstração para facilitar o início. DPO otimiza preferências entre pares de respostas do modelo usando uma perda de contraste (escolhido vs. rejeitado). Enquanto o DPO continua como baseline forte, GRPO, GSPO e MPO introduzem sinal mais rico e estabilidade em cenários multimodais. MPO, em particular, estende o DPO com várias perdas: a perda de preferência DPO (sigmóide), uma perda de qualidade proveniente do Binary Classifier Optimization (BCO) e uma perda de geração proveniente do SFT. Essa perda combinada pode trazer ganhos relevantes (ex.: 6,2 pontos na MathVista, conforme o trabalho citado). O time do TRL adicionou suporte a essa perda combinada na classe DPOTrainer, permitindo experimentação mais fácil. Um notebook completo demonstra como usar MPO na prática. GRPO (Group Relative Policy Optimization) é um método de alinhamento de vanguarda originado no DeepSeek Math e, mais tarde, integrado ao DeepSeek R1. Ele amplia o PPO ao realizar atualizações de política sobre grupos de trajetórias (ou seja, batches de rollouts de diálogo), o que ajuda a atenuar o ruído de recompensa e incentiva um conceito mais amplo de uma boa resposta. O TRL adiciona suporte a GRPO para modelos VLM, com funcionamento orientado por funções de recompensa criadas para o cenário multimodal. Para executar o treinamento, crie um GRPOConfig e um GRPOTrainer, forneça as funções de recompensa definidas e chame train(). Um notebook completo está disponível para referência. GSPO (Group Sequence Policy Optimization) é uma variante do GRPO que computa pesos de amostragem de importância em nível de sequência, em vez de token por token. Suas vantagens são mais estáveis em treinamentos, com relevância para modelos com arquiteturas tipo MoE. A versão mais recente do TRL inclui suporte ao GSPO com suporte multimodal, seguindo o mesmo fluxo de GRPO, mas com parâmetros vindos do artigo original. O notebook acompanha um guia conciso. Juntas, essas abordagens, somadas ao suporte nativo a SFT para VLMs, oferecem um conjunto de escolhas para alinhar modelos multimodais com preferências humanas, lidando com fraquezas observadas em SFT isolado ou em configurações DPO tradicionais. O post da blog apresenta também uma tabela de diferenças entre as respostas do modelo.

Anteriormente, alinhar VLMs com instruções por meio de SFT pode sofrer com deslocamento de distribuição em tarefas de raciocínio. O DPO melhora o alinhamento com base em preferências, mas pode produzir justificativas pouco coerentes ou respostas repetitivas. O MPO busca equilibrar esses aspectos combinando componentes de perda para gerar respostas fluídas, manter qualidade e seguir preferências multimodais. A combinação visa escalar para modelos maiores e dados mais diversos, com notebooks de referência.

Principais recursos

Métodos de alinhamento multimodal: GRPO, GSPO e MPO para VLMs.
MPO combina três tipos de perda: perda de preferência DPO (sigmóide), perda de qualidade do BCO e perda de geração do SFT.
MPO mostrou ganhos de desempenho (ex.: 6,2 pontos na MathVista no estudo citado).
Melhoria do DPOTrainer: é possível usar a perda combinada ao configurar DPOConfig e DPOTrainer.
GRPO estende o PPO com atualizações por grupo de trajetórias, tornando-o mais robusto ao ruído de recompensa.
GSPO oferece estabilidade com amostragem de importância em nível de sequência, relevante para arquiteturas MoE.
Suporte nativo a SFT para VLMs com scripts de treinamento e notebooks de demonstração.
Diretrizes práticas via notebooks, incluindo exemplo completo de alinhamento multimodal.
Discussões sobre limites: SFT isolado pode ter baixo desempenho em tarefas de raciocínio; DPO pode produzir justificativas repetitivas; MPO aborda essas limitações.

Casos de uso comuns

Alinhar VLMs a preferências humanas para tarefas que combinam visão e linguagem, como instruções multimodais, raciocínio com contexto de imagem e geração de justificativas.
Aproveitar sinais de preferência mais ricos para melhorar além de comparações pareadas, especialmente com dados multimodais amplos e variados.
Mitigar deslocamentos de distribuição associados a pipelines apenas com SFT, incorporando métodos de otimização de política (GRPO/GSPO) e sinal multimodal (MPO).
Melhorar a coerência e reduzir repetições em justificativas ao combinar componentes de perda (DPO, BCO, SFT).
Escalar experimentos para modelos maiores e datasets com base no uso de atualizações por grupo ou por sequência na prática de GRPO/GSPO.
Validar abordagens com notebooks dedicados e exemplos que acompanham as liberações do TRL.

Setup & instalação

As especificações de setup e instalação não são fornecidas no trecho. O projeto TRL disponibiliza scripts de treinamento e notebooks para experimentar GRPO, GSPO, MPO e SFT para VLMs, mas comandos exatos, ambientes e dependências não são detalhados aqui. Consulte o blog referenciado para orientações e os notebooks anexos para exemplos práticos.

Not specified in the source.

Quick start

Um exemplo mínimo pronto para rodar não é fornecido no trecho. O blog menciona um notebook completo para explorar os métodos, incluindo como inicializar DPOConfig e DPOTrainer para o MPO, além de fluxos GRPO/GSPO com funções de recompensa. Consulte o notebook vinculado no post para iniciar rapidamente.

Not provided in the source.

Prós e contras

Prós
GRPO reduz o ruído de recompensa ao atualizar com base em grupos de trajetórias, promovendo um gosto mais amplo de boa resposta.
GSPO oferece estabilidade de treinamento ao usar pesos de amostragem de importância em nível de sequência, especialmente relevante para modelos MoE.
MPO fornece sinais de treinamento mais ricos ao combinar DPO, BCO e perdas de SFT, com ganhos relatados em cenários multimodais.
Suporte nativo a SFT para VLMs facilita pipelines de treinamento end-to-end.
Abordagens alinhadas com a escala e diversidade de dados de VLMs modernos, com notebooks disponíveis para facilitar a experimentação.
Contras
Um script completo de treinamento para GRPO nem sempre está incluído no post; usuários devem recorrer aos notebooks para implementar o fluxo.
SFT isolado pode ter limitações em tarefas de raciocínio e DPO pode levar a justificativas menos coerentes ou repetitivas; MPO oferece uma alternativa para mitigar isso.
Treinar alinhamentos multimodais pode exigir modelos grandes, dados extensos e compute expressivo; os resultados são mostrados em sub-conjuntos de dados com ressalvas.

Alternativas (comparação breve)

| Método | Ideia central | Pontos fortes | Trade-offs |---|---|---|---| | SFT | Finetuning supervisionado | Fácil de implementar; alinha a instruções | Pode sofrer com deslocamento de distribuição em raciocínio; não modela preferências explicitamente |DPO | Otimização de preferência pareada | Alinha diretamente às preferências do usuário | Pode produzir justificativas menos coerentes e repetições |MPO | DPO + BCO + perdas SFT | Objetivo multimodal rico; ganhos relatados | Mais complexo de ajustar; requer balancear perdas |GRPO | Atualizações por grupo (PPO) | Robusto ao ruído de recompensa; foca em gostos amplos | Nem sempre há script completo disponível; escolhas de agrupamento importam |GSPO | Versão em nível de sequência | Estável com amostras de importância em sequência; bom para MoE | Pode exigir implementação mais envolvida |

Pricing ou Licença

Não há informações de licença ou preços especificadas no trecho. Para termos de uso, consulte o repositório TRL e o blog da Hugging Face.

Referências

https://huggingface.co/blog/trl-vlm-alignment

Alinhamento de Vision Language Models no TRL: GRPO, GSPO e MPO

Visão geral

Principais recursos

Casos de uso comuns

Setup & instalação

Quick start

Prós e contras

Alternativas (comparação breve)

Pricing ou Licença

Referências

More resources

Deixe os ZeroGPU Spaces mais rápidos com compilação ahead-of-time (AoT) do PyTorch

Gerar imagens com Claude e Hugging Face: ferramentas, configuração e exemplos

Nemotron Nano 2 9B: Modelo de raciocínio aberto com 6x de Throughput para Edge e Empresa

Do Zero ao GPU: Guia para Construir e Dimensionar Kernels CUDA Prontos para Produção

Do Zero ao GPU: Guia para Construir e Dimensionar Kernels CUDA Prontos para Produção

MCP para Pesquisa: Como Conectar IA a Ferramentas de Pesquisa