Alinhamento de Modelos Visão-Linguagem no TRL: GRPO, GSPO, MPO e Suporte SFT

Modelos de Visão-Linguagem (VLMs) estão ficando cada vez mais fortes, mas alinhar seus comportamentos às preferências humanas continua essencial. No TRL, já mostramos como realizar o pós-treinamento de VLMs com Supervised Fine-Tuning (SFT) e Direct Preference Optimization (DPO). Esta atualização avança o conjunto de ferramentas ao apresentar três métodos de alinhamento multimodal: Group Relative Policy Optimization (GRPO), sua variante Group Sequence Policy Optimization (GSPO) e Mixed Preference Optimization (MPO), além do suporte nativo a SFT para modelos visão-linguagem e scripts de treinamento prontos para uso, com notebooks de demonstração para facilitar o começo. Esses métodos visam extrair mais sinal de dados de preferência e escalam melhor com VLMs modernos, elevando a qualidade do alinhamento sem comprometer a estabilidade do treinamento. Este resumo se baseia no post do blog da Hugging Face sobre TRL VLM Alignment TRL VLM Alignment. Contexto e antecedentes Modelos Visão-Linguagem combinam raciocínio visual e textual, e alinhar seu comportamento às preferências humanas ajuda a assegurar respostas úteis e seguras em várias tarefas. Tradicionalmente, o pipeline envolve pegar um modelo base, aplicar SFT para instruções e, em seguida, usar DPO para alinhar com dados de preferência. No setting de VLM, esse fluxo foi adaptado e validado no modelo IDEFICS2, apresentando melhorias nas respostas do modelo. DPO funciona ao aprender com preferências entre duas respostas (uma escolhida e uma rejeitada) usando uma perda contrastiva; o modelo é ajustado para favorecer a opção preferida. Ao longo do último ano, métodos de alinhamento multimodal como GRPO e MPO ganharam tração por sua capacidade de extrair sinais de preferência de forma mais robusta e escalável. O TRL passa a oferecer suporte nativo a esses métodos, além de SFT e DPO, permitindo que pesquisadores e engenheiros combinem sinais de várias perdas e estruturas de recompensa para supervisão multimodal mais eficaz. O que há de novo Este lançamento traz três métodos multimodais em TRL, além do aperfeiçoamento no suporte a SFT nativo e ferramentas de treinamento. A seguir, um resumo de cada método. Observa-se ao final do post original uma tabela que compara as saídas de diferentes métodos.

Group Relative Policy Optimization (GRPO)

GRPO estende uma abordagem já usada em políticas de grande escala, aplicando atualizações sobre grupos de trajetórias (conjuntos de execuções de diálogo) em vez de apenas episódios isolados. No TRL, o agrupamento ajuda a amortecer o ruído de recompensa dentro de cada grupo, tornando o aprendizado mais estável. O resultado é um modelo que aprende um senso mais amplo de o que constitui uma resposta boa, ao invés de perseguir apenas amostras de alta recompensa. No TRL, o suporte a GRPO para modelos visão-linguagem é apresentado com foco nos conceitos-chave, sem fornecer um script completo de treinamento direto no post. Para usar o GRPO de forma eficaz, sugere-se definir duas funções de recompensa, criar um GRPOConfig e um GRPOTrainer e então chamar train() para iniciar o alinhamento. Um notebook completo está disponível para explorar o fluxo de trabalho na prática.

Group Sequence Policy Optimization (GSPO)

GSPO é uma refinamento do GRPO que resolve algumas limitações ao calcular pesos de amostragem de importância em nível de sequência, ao invés de nível de token. Os benefícios são mais perceptíveis em modelos do tipo MoE (Mixture of Experts). O TRL também introduz suporte ao GSPO para modelos multimodais, mantendo o mesmo fluxo de criação do trainer, com parâmetros adicionais retirados do artigo original.

Mixed Preference Optimization (MPO)

MPO está projetado para modelos multimodais combinando várias perdas em um único objetivo: a perda de preferência do DPO (sigmoide), a perda de qualidade da Binary Classifier Optimization (BCO) e a perda de geração do SFT. Essa combinação busca resolver limitações de depender de apenas um sinal, como razões incoerentes ou respostas repetitivas. Em trabalhos citados, a troca para essa perda combinada resulta em ganhos significativos (por exemplo, 6,2 pontos de melhoria no MathVista), ilustrando o potencial do MPO para melhorar raciocínio e geração multimodal. Além do MPO, o TRL adiciona o suporte para combinar perdas no DPOTrainer, permitindo que pesquisadores configurem perdas múltiplas dentro do fluxo DPO. O post também aponta para um notebook completo que demonstra o fluxo de trabalho na prática. Por que isso importa (impacto para desenvolvedores/empresas) A introdução de GRPO, GSPO e MPO amplia o conjunto de ferramentas para alinhar VLMs com preferências humanas. A abordagem baseada em grupos do GRPO ajuda a reduzir o ruído de recompensa e estabilizar o treinamento ao aprender sinais de contexto mais amplos, o que leva a modelos que generalizam melhor em prompts e cenários diversos, crucial para usos reais. A GSPO, com sua amostra de importância em nível de sequência, é particularmente útil para arquiteturas MoE, onde a distribuição de tokens pode ser altamente multiplexa. Isso pode traduzir-se em dinâmicas de treinamento mais estáveis e melhor eficiência de recursos na escala de VLMs em ambientes empresariais. O MPO aborda diretamente desafios conhecidos de alinhamento multimodal ao combinar vários sinais de aprendizado: DPO, BCO e SFT, resultando em desempenho mais sólido e comportamento multimodal mais coerente, com menos respostas repetitivas ou fora do tópico. O documento citado relata melhorias notáveis em benchmarks relevantes, o que reforça o valor prático dessas abordagens para avaliações de modelos. Para desenvolvedores e organizações, a disponibilidade dessas técnicas no TRL, aliada ao suporte nativo a SFT para VLMs e a notebooks prontos para uso, facilita a experimentação com técnicas avançadas de alinhamento. Isso permite ciclos de iteração mais rápidos, estudos de ablação mais claros e pipelines de implantação mais resilientes a dados de preferência que evoluem com o tempo. O TRL também sinaliza acessibilidade: APIs padrão do TRL para configurar, treinar e avaliar essas abordagens, com notebooks de referência para guiar o fluxo de trabalho. Se você trabalha com TRL para VLMs, essas adições oferecem um caminho mais escalável para alinhamento multimodal de alta qualidade, como descrito no post da Hugging Face TRL VLM Alignment. Detalhes técnicos ou Implementação (alto nível)

MPO detalha a extensão do DPO com uma perda multi-sinal, combinando a perda de preferência DPO (sigmoide), a perda de qualidade BCO e a perda de geração SFT. Essa configuração integrada pode trazer melhor desempenho em benchmarks multimodais.
Uso do MPO: para usar MPO, configure o DPOConfig conforme a documentação do TRL e utilize o DPOTrainer com a perda combinada, sem substituir o fluxo DPO central.
GRPO uso: para GRPO, defina um GRPOConfig e um GRPOTrainer, crie duas funções de recompensa e execute train(). A abordagem é desenhada para ser robusta a ruído de recompensa por meio do agrupamento de trajetórias. Um notebook completo demonstra o fluxo de trabalho na prática.
GSPO uso: GSPO compartilha o mesmo fluxo de GRPO, com parâmetros adicionais para suportar o cálculo de pesos de importância em nível de sequência, com foco em arquiteturas MoE em contextos multimodais.
SFT e suporte nativo a VLMs: o TRL agora oferece suporte nativo a SFT para modelos visão-linguagem, permitindo um pipeline de pós-treinamento mais direto que pode ser combinado com DPO, MPO, GRPO ou GSPO.
Contexto do DPO: o DPO ainda é um componente central para alinhar VLMs a preferências humanas, aprendendo a partir de pares de respostas. o MPO amplia esse sinal ao incorporar sinais adicionais, melhorando o alinhamento em multimodalidade.
Observação prática: o post original não apresenta um script completo de GRPO no corpo, mas destaca os componentes-chave e o fluxo de trabalho, com um notebook completo para explorar o uso de GRPO na prática. A ênfase está em validar o formato das respostas e alinhar os sinais aos conjuntos de dados.
Configuração e treinamento: o TRL atualizou o DPOTrainer para suportar a perda combinada. Usuários podem instanciar DPOConfig e DPOTrainer para explorar o caminho MPO com várias perdas, iniciando experimentos com o fluxo multimodal de alinhamento. O notebook de referência serve como guia. Principais conclusões
O TRL passa a oferecer GRPO, GSPO e MPO para alinhamento de Modelos Visão-Linguagem, além do suporte nativo a SFT e DPO.
GRPO oferece atualizações de política em grupos que reduzem o ruído de recompensa e promovem uma visão mais ampla de respostas adequadas.
GSPO introduz amostras de importância em nível de sequência, com benefícios para arquiteturas MoE em treinamento multimodal.
MPO combina DPO, BCO e SFT em uma única função de perda, com ganhos relatados em benchmarks de raciocínio multimodal (p. ex., MathVista).
O TRL fornece scripts de treinamento e notebooks para facilitar a implementação, além de orientações sobre configuração de recompensas e do treinador.
Uma tabela no post original ilustra diferenças nas saídas entre métodos, destacando as distinções práticas para avaliação.
A abordagem amplia o fluxo de trabalho existente de SFT seguido de DPO, oferecendo sinais adicionais e maior robustez para alinhamento multimodal. Consulte o post da Hugging Face para detalhes TRL VLM Alignment. FAQ
Q: O que é MPO no TRL? A: MPO é Mixed Preference Optimization, uma extensão do DPO para modelos multimodais que combina a perda de preferência DPO, a perda de qualidade BCO e a perda de geração SFT.
Q: Como usar GRPO no TRL? A: Defina duas funções de recompensa, crie um GRPOConfig e um GRPOTrainer, e execute train() para iniciar o aprendizado a partir de trajetórias agrupadas.
Q: O que é GSPO e quando ele é vantajoso? A: GSPO é Group Sequence Policy Optimization, uma variante de GRPO que utiliza pesos de importância em nível de sequência, útil para arquiteturas MoE e treinamento multimodal estável.
Q: SFT ainda é suportado para VLMs no TRL? A: Sim, há suporte nativo a SFT para modelos visão-linguagem, permitindo um pipeline de pós-treinamento direto com DPO, MPO, GRPO ou GSPO.
Q: Onde encontrar exemplos ou notebooks para começar? A: O post do blog destaca notebooks e exemplos que ilustram os fluxos de trabalho e como configurar o trainer e as perdas; um notebook completo acompanha a liberação. Referências
Hugging Face blog: TRL VLM Alignment (https://huggingface.co/blog/trl-vlm-alignment)

Alinhamento de Modelos Visão-Linguagem no TRL: GRPO, GSPO, MPO e Suporte SFT

Group Relative Policy Optimization (GRPO)

Group Sequence Policy Optimization (GSPO)

Mixed Preference Optimization (MPO)

More news

Scaleway Como Novo Fornecedor de Inferência no Hugging Face para Inferência serverless de Baixa Latência

Faça seus ZeroGPU Spaces trabalharem rápido com compilação ahead-of-time do PyTorch

Faça seus ZeroGPU Spaces ficarem mais rápidos com compilação AoT do PyTorch

Aprendizado por Reforço com NVIDIA NeMo-RL: Megatron-Core Aumenta o Throughput de Treinamento para Modelos Grandes

Gerar imagens com Claude e Hugging Face: ferramentas de IA fáceis de usar

Nemotron Nano 2 Open 9B para Raciocínio lidera ranking com 6x de Throughput