Alinhamento de Vision Language Models no TRL: GRPO, GSPO e MPO
Sources: https://huggingface.co/blog/trl-vlm-alignment, Hugging Face Blog
Visão geral
Modelos de Visão-Linguagem (VLMs) estão cada vez mais potentes, mas alinhá-los às preferências humanas continua sendo essencial para uso confiável no mundo real. No TRL, mostramos anteriormente o pós-treinamento de VLMs com Fine-Tuning Supervisionado (SFT) e Direct Preference Optimization (DPO). As novidades trazem dois métodos de alinhamento multimodal: Group Relative Policy Optimization (GRPO) e Group Sequence Policy Optimization (GSPO), além de Mixed Preference Optimization (MPO). Esses métodos extraem mais sinal de dados de preferência e escalonam melhor com modelos modernos de VLMs. O TRL também passa a oferecer suporte nativo a SFT para visão-linguagem, e o projeto disponibiliza scripts de treinamento e notebooks de demonstração para facilitar o início. DPO otimiza preferências entre pares de respostas do modelo usando uma perda de contraste (escolhido vs. rejeitado). Enquanto o DPO continua como baseline forte, GRPO, GSPO e MPO introduzem sinal mais rico e estabilidade em cenários multimodais. MPO, em particular, estende o DPO com várias perdas: a perda de preferência DPO (sigmóide), uma perda de qualidade proveniente do Binary Classifier Optimization (BCO) e uma perda de geração proveniente do SFT. Essa perda combinada pode trazer ganhos relevantes (ex.: 6,2 pontos na MathVista, conforme o trabalho citado). O time do TRL adicionou suporte a essa perda combinada na classe DPOTrainer, permitindo experimentação mais fácil. Um notebook completo demonstra como usar MPO na prática. GRPO (Group Relative Policy Optimization) é um método de alinhamento de vanguarda originado no DeepSeek Math e, mais tarde, integrado ao DeepSeek R1. Ele amplia o PPO ao realizar atualizações de política sobre grupos de trajetórias (ou seja, batches de rollouts de diálogo), o que ajuda a atenuar o ruído de recompensa e incentiva um conceito mais amplo de uma boa resposta. O TRL adiciona suporte a GRPO para modelos VLM, com funcionamento orientado por funções de recompensa criadas para o cenário multimodal. Para executar o treinamento, crie um GRPOConfig e um GRPOTrainer, forneça as funções de recompensa definidas e chame train(). Um notebook completo está disponível para referência. GSPO (Group Sequence Policy Optimization) é uma variante do GRPO que computa pesos de amostragem de importância em nível de sequência, em vez de token por token. Suas vantagens são mais estáveis em treinamentos, com relevância para modelos com arquiteturas tipo MoE. A versão mais recente do TRL inclui suporte ao GSPO com suporte multimodal, seguindo o mesmo fluxo de GRPO, mas com parâmetros vindos do artigo original. O notebook acompanha um guia conciso. Juntas, essas abordagens, somadas ao suporte nativo a SFT para VLMs, oferecem um conjunto de escolhas para alinhar modelos multimodais com preferências humanas, lidando com fraquezas observadas em SFT isolado ou em configurações DPO tradicionais. O post da blog apresenta também uma tabela de diferenças entre as respostas do modelo.
Anteriormente, alinhar VLMs com instruções por meio de SFT pode sofrer com deslocamento de distribuição em tarefas de raciocínio. O DPO melhora o alinhamento com base em preferências, mas pode produzir justificativas pouco coerentes ou respostas repetitivas. O MPO busca equilibrar esses aspectos combinando componentes de perda para gerar respostas fluídas, manter qualidade e seguir preferências multimodais. A combinação visa escalar para modelos maiores e dados mais diversos, com notebooks de referência.
Principais recursos
- Métodos de alinhamento multimodal: GRPO, GSPO e MPO para VLMs.
- MPO combina três tipos de perda: perda de preferência DPO (sigmóide), perda de qualidade do BCO e perda de geração do SFT.
- MPO mostrou ganhos de desempenho (ex.: 6,2 pontos na MathVista no estudo citado).
- Melhoria do DPOTrainer: é possível usar a perda combinada ao configurar DPOConfig e DPOTrainer.
- GRPO estende o PPO com atualizações por grupo de trajetórias, tornando-o mais robusto ao ruído de recompensa.
- GSPO oferece estabilidade com amostragem de importância em nível de sequência, relevante para arquiteturas MoE.
- Suporte nativo a SFT para VLMs com scripts de treinamento e notebooks de demonstração.
- Diretrizes práticas via notebooks, incluindo exemplo completo de alinhamento multimodal.
- Discussões sobre limites: SFT isolado pode ter baixo desempenho em tarefas de raciocínio; DPO pode produzir justificativas repetitivas; MPO aborda essas limitações.
Casos de uso comuns
- Alinhar VLMs a preferências humanas para tarefas que combinam visão e linguagem, como instruções multimodais, raciocínio com contexto de imagem e geração de justificativas.
- Aproveitar sinais de preferência mais ricos para melhorar além de comparações pareadas, especialmente com dados multimodais amplos e variados.
- Mitigar deslocamentos de distribuição associados a pipelines apenas com SFT, incorporando métodos de otimização de política (GRPO/GSPO) e sinal multimodal (MPO).
- Melhorar a coerência e reduzir repetições em justificativas ao combinar componentes de perda (DPO, BCO, SFT).
- Escalar experimentos para modelos maiores e datasets com base no uso de atualizações por grupo ou por sequência na prática de GRPO/GSPO.
- Validar abordagens com notebooks dedicados e exemplos que acompanham as liberações do TRL.
Setup & instalação
As especificações de setup e instalação não são fornecidas no trecho. O projeto TRL disponibiliza scripts de treinamento e notebooks para experimentar GRPO, GSPO, MPO e SFT para VLMs, mas comandos exatos, ambientes e dependências não são detalhados aqui. Consulte o blog referenciado para orientações e os notebooks anexos para exemplos práticos.
Not specified in the source.
Quick start
Um exemplo mínimo pronto para rodar não é fornecido no trecho. O blog menciona um notebook completo para explorar os métodos, incluindo como inicializar DPOConfig e DPOTrainer para o MPO, além de fluxos GRPO/GSPO com funções de recompensa. Consulte o notebook vinculado no post para iniciar rapidamente.
Not provided in the source.
Prós e contras
- Prós
- GRPO reduz o ruído de recompensa ao atualizar com base em grupos de trajetórias, promovendo um gosto mais amplo de boa resposta.
- GSPO oferece estabilidade de treinamento ao usar pesos de amostragem de importância em nível de sequência, especialmente relevante para modelos MoE.
- MPO fornece sinais de treinamento mais ricos ao combinar DPO, BCO e perdas de SFT, com ganhos relatados em cenários multimodais.
- Suporte nativo a SFT para VLMs facilita pipelines de treinamento end-to-end.
- Abordagens alinhadas com a escala e diversidade de dados de VLMs modernos, com notebooks disponíveis para facilitar a experimentação.
- Contras
- Um script completo de treinamento para GRPO nem sempre está incluído no post; usuários devem recorrer aos notebooks para implementar o fluxo.
- SFT isolado pode ter limitações em tarefas de raciocínio e DPO pode levar a justificativas menos coerentes ou repetitivas; MPO oferece uma alternativa para mitigar isso.
- Treinar alinhamentos multimodais pode exigir modelos grandes, dados extensos e compute expressivo; os resultados são mostrados em sub-conjuntos de dados com ressalvas.
Alternativas (comparação breve)
| Método | Ideia central | Pontos fortes | Trade-offs |---|---|---|---| | SFT | Finetuning supervisionado | Fácil de implementar; alinha a instruções | Pode sofrer com deslocamento de distribuição em raciocínio; não modela preferências explicitamente |DPO | Otimização de preferência pareada | Alinha diretamente às preferências do usuário | Pode produzir justificativas menos coerentes e repetições |MPO | DPO + BCO + perdas SFT | Objetivo multimodal rico; ganhos relatados | Mais complexo de ajustar; requer balancear perdas |GRPO | Atualizações por grupo (PPO) | Robusto ao ruído de recompensa; foca em gostos amplos | Nem sempre há script completo disponível; escolhas de agrupamento importam |GSPO | Versão em nível de sequência | Estável com amostras de importância em sequência; bom para MoE | Pode exigir implementação mais envolvida |
Pricing ou Licença
Não há informações de licença ou preços especificadas no trecho. Para termos de uso, consulte o repositório TRL e o blog da Hugging Face.
Referências
More resources
Deixe os ZeroGPU Spaces mais rápidos com compilação ahead-of-time (AoT) do PyTorch
Descubra como a AoT do PyTorch acelera ZeroGPU Spaces exportando um modelo compilado e recarregando-o instantaneamente, com quantização FP8, formas dinâmicas e integração cuidadosa com o fluxo Spaces GPU.
Gerar imagens com Claude e Hugging Face: ferramentas, configuração e exemplos
Descubra como conectar Claude ao Hugging Face Spaces via MCP Server para gerar imagens com Krea e Qwen-Image, aproveitar créditos gratuitos e explorar o diretório de aplicativos de IA.
Nemotron Nano 2 9B: Modelo de raciocínio aberto com 6x de Throughput para Edge e Empresa
Nemotron Nano 2 9B aberto oferece precisão de ponta e até 6x de throughput com backbone híbrido Transformer–Mamba e orçamento de raciocínio configurável, voltado para edge, PC e aplicações empresariais de IA.
Do Zero ao GPU: Guia para Construir e Dimensionar Kernels CUDA Prontos para Produção
Guia prático para desenvolver, compilar para várias arquiteturas e implantar kernels CUDA com o Hugging Face Kernel Builder. Aprenda a criar um fluxo robusto desde o desenvolvimento local até a distribuição no Hub.
Do Zero ao GPU: Guia para Construir e Dimensionar Kernels CUDA Prontos para Produção
Fluxo prático da kernel-builder da Hugging Face para desenvolver, compilar e implantar kernels CUDA com produção, com builds reprodutíveis, suporte a múltiplas arquiteturas e distribuição via Hub.
MCP para Pesquisa: Como Conectar IA a Ferramentas de Pesquisa
Explica o Modelo Context Protocol (MCP) para descoberta de pesquisa e como a IA pode orquestrar ferramentas de pesquisa entre arXiv, GitHub e Hugging Face via linguagem natural.