Escalando o RL de LLM com Treinamento Prolongado usando ProRL v2
Sources: https://developer.nvidia.com/blog/scaling-llm-reinforcement-learning-with-prolonged-training-using-prorl-v2, developer.nvidia.com
TL;DR
- O ProRL v2 estende o treinamento de RL prolongado para modelos de linguagem de grande porte (LLMs), testando os efeitos de milhares de passos adicionais de RL.
- Inovações centrais incluem perda PPO-Clip, Clip-Higher, Dynamic Sampling e Normalização de Lote Global no baseline REINFORCE++, para estabilizar o treinamento e incentivar a exploração.
- Mecanismos adicionais como a penalidade de comprimento cosseno e penalidades KL ajudam a equilibrar precisão com eficiência de tokens e estabilidade de política.
- Resultados mostram desempenho de ponta e melhorias sustentadas em matemática, geração de código e benchmarks de raciocínio diversificado, mesmo com redução do tamanho do contexto de 16K para 8K. Modelos e benchmarks de código aberto estão disponíveis para reprodutibilidade.
Contexto e antecedentes
O ProRL v2 é a evolução mais recente do Prolonged Reinforcement Learning (ProRL), desenvolvido pela NVIDIA Research, projetado para testar se treinos de RL estendidos podem trazer melhorias mensuráveis nas capacidades de LLMs além dos cronogramas tradicionais. A abordagem insere o ProRL dentro de um panorama mais amplo de técnicas de IA, incluindo prompting de cadeia de pensamento (chain-of-thought) e busca em árvore, que ajudam os modelos a explorar melhor o conhecimento já possuído. Enquanto métodos convencionais de RL com horizonte curto podem ser instáveis e apresentar retornos decrescentes, o ProRL busca ir além da mera recolocação de soluções familiares para favorecer descobertas genuínas. A documentação oficial da NVIDIA apresenta o ProRL v2 como base para esses objetivos, ampliando o baseline REINFORCE++ e integrando várias inovações para estabilidade, exploração e eficiência de aprendizagem. NVIDIA ProRL v2 Blog.
O que há de novo
O ProRL v2 traz um conjunto de técnicas para estabilizar atualizações, promover exploração e reduzir ruídos, permitindo treinamentos de RL mais longos e informativos. No coração está a perda de proximal policy optimization com clipping (PPO-Clip), que restringe o desvio entre as políticas antiga e nova para estabilizar as atualizações. Além disso:
- Normalização de grupo: o termo grupo se refere a todas as respostas geradas para o mesmo prompt, assegurando que a normalização ocorra sobre saídas relacionadas.
- Normalização de lote global no REINFORCE++: ajuda a evitar instabilidade de valor causada por tamanhos de grupo pequenos.
- Clip-Higher: amplia o intervalo superior de clipping do PPO para estimular a exploração.
- Dynamic Sampling (Amostragem Dinâmica): remove prompts cujas respostas do grupo são totalmente corretas ou totalmente incorretas para reduzir ruído no gradiente.
- Penalidade de comprimento cosseno: promove saídas concisas ao ciclar a penalidade ao longo do tempo.
- Penalidade KL: mantém a política próxima a uma referência para estabilidade.
- Reinicializações periódicas da política de referência: a cada 200–500 passos de RL (ou diante de picos de KL ou validação estagnada), a política de referência é redefinida para a política atual, sem limpar o estado do otimizador, permitindo aprendizado contínuo.
- Considerações de comprimento de contexto: experimentos mostram melhoria de precisão com redução do contexto de treino (de 16K para 8K), reduzindo custos computacionais.
- Benchmarking: avaliações incluem matemática, geração de código e várias tarefas de raciocínio, com ganhos robustos inclusive em tarefas desafiadoras e fora da distribuição. Resumo de componentes (visão geral)
| Componente | Propósito |
|---|---|
| Perda PPO-Clip | Estabiliza atualizações limitando o desvio entre políticas |
| Normalização de grupo | Estabiliza aprendizado com saídas agrupadas por prompt |
| Normalização de lote global (REINFORCE++) | Previne instabilidade de valor em grupos pequenos |
| Clip-Higher | Estimula exploração ampliando o clipping |
| Amostragem Dinâmica | Reduz ruído descartando casos extremos |
| Penalidade de comprimento cosseno | Incentiva saídas concisas |
| Penalidade KL | Mantém a política próxima da referência |
| Reinicializações de referência | Evita estagnação e mantém progresso de aprendizado |
| Como descrito pela NVIDIA, esses métodos permitem treinos de RL mais longos com ganhos significativos, com modelos e benchmarks abertos para validação e replicação. Para equipes que desejam aplicar essas ideias, o framework ProRL oferece uma receita prática de treinamento e um ecossistema de experimentação em plataformas como Hugging Face. O objetivo mais amplo é expandir o que os LLMs conseguem descobrir e aprender por meio de RL sustentado. Pesquisadores são convidados a explorar e validar essas abordagens, em um movimento contínuo de P&D. |
Por que isso importa (impacto para desenvolvedores/empresas)
A pesquisa sobre ProRL v2 aborda uma questão central na IA: LLMs podem continuar melhorando com treinamento prolongado de RL, ou os ganhos tendem a se estabilizar? A NVIDIA Research sugere que o RL prolongado pode produzir avanços significativos em raciocínio, matemática e geração de código, mesmo quando restrições computacionais exigem janelas de contexto menores. Isso tem implicações práticas para organizações que buscam ampliar as capacidades de modelos além do que é alcançável com cronogramas tradicionais de RL. Ao oferecer uma base reprodutível e uma receita de treinamento, o ProRL v2 facilita a experimentação e validação em ambientes acadêmicos e corporativos. A disponibilidade de modelos e benchmarks de código aberto apoia a validação por comunidades, equipes de pesquisa e clientes com diferentes casos de uso. Profissionais podem explorar essas abordagens em plataformas como Hugging Face para validação colaborativa.
Detalhes técnicos ou Implementação
O ProRL v2 permanece sobre a linha de base REINFORCE++ e introduce um conjunto de mecanismos para estabilizar aprendizados e ampliar a exploração:
- Perda PPO-Clip: estabilidade de atualizações de política ao limitar o desvio entre políticas.
- Normalização de grupo: agrupa todas as saídas para um mesmo prompt para manter consistência.
- Normalização de lote global (REINFORCE++): evita instabilidade de valor com grupos menores.
- Clip-Higher: amplia o intervalo de clipping para promover exploração.
- Amostragem Dinâmica: reduz ruído do gradiente descartando prompts com resultados uniformes.
- Penalidade de comprimento cosseno: favorece saídas mais curtas e diretas ao ciclo de penalidade.
- Penalidade KL: mantém a política próxima da referência para estabilidade.
- Reinicializações periódicas da política de referência: a cada 200–500 passos de RL ou em resposta a picos de KL, redefine-se a referência para a política atual, mantendo o estado do otimizador e evitando stagnation.
- Considerações sobre comprimento de contexto: demonstrações mostram ganhos de precisão com redução de contexto de treino para 8K, reduzindo custos.
- Escopo de benchmarks: matemática, geração de código e raciocínio, incluindo tarefas desafiadoras, com ganhos robustos. Resumo da implementação
| Componente | Propósito |
|---|---|
| Perda PPO-Clip | Estabilizar atualizações de política |
| Normalização de grupo | Estabilização com saídas agrupadas por prompt |
| Normalização de lote global | Evita instabilidade de valor com grupos pequenos |
| Clip-Higher | Exploração ampliada |
| Amostragem Dinâmica | Reduz ruído do gradiente |
| Penalidade de comprimento | Promove saídas concisas |
| Penalidade KL | Mantém política estável |
| Reinicializações | Mantém o aprendizado em progresso |
| Resultados, conforme a NVIDIA, indicam desempenho de ponta e melhoria contínua em tarefas diversas, com a vantagem adicional de reduzir o custo computacional por meio da redução do contexto. O conjunto de modelos e benchmarks abertos facilita a validação por parte da comunidade, enquanto a integração com plataformas como Hugging Face facilita a experimentação. A visão geral permanece: treinar por períodos mais longos de RL pode ampliar de forma tangível as capacidades de raciocínio dos LLMs. |
Principais conclusões
- RL prolongado pode sustentar melhorias consistentes em LLMs em matemática, código e raciocínio.
- Combinações de estabilidade (PPO-Clip, Normalização Global) e exploração (Clip-Higher, Amostragem Dinâmica) apoiam treinamentos mais longos.
- Controles de saída (penalidade de comprimento, KL) equilibram precisão e eficiência de tokens.
- Reinicializações periódicas da referência evitam estagnação e mantêm o progresso.
- Modelos e benchmarks abertos promovem reprodutibilidade e validação pela comunidade.
FAQ
-
O que é o ProRL v2?
É a evolução mais recente do Prolonged Reinforcement Learning para LLMs, desenvolvido pela NVIDIA Research, para testar efeitos de treinamento RL estendido.
-
uais são as principais inovações do ProRL v2?
Perda PPO-Clip, Clip-Higher, Dynamic Sampling, Normalização de Lote Global no REINFORCE++, penalidade de comprimento cosseno, penalidades KL e reinicializações periódicas da referência, visando estabilidade, exploração e eficiência.
-
uais benchmarks foram usados e quais os resultados?
valiações em matemática, geração de código e tarefas de raciocínio com ganhos de ponta e melhorias contínuas, mesmo com contextos menores.
-
Como pesquisadores podem acessar os recursos do ProRL?
Existem modelos e benchmarks de código aberto disponíveis; a comunidade é incentivada a explorar e validar, com menção a plataformas como Hugging Face.
Referências
More news
NVIDIA HGX B200 reduz a Intensidade de Emissões de Carbono Incorporado
O HGX B200 da NVIDIA reduz 24% da intensidade de carbono incorporado em relação ao HGX H100, ao mesmo tempo em que aumenta o desempenho de IA e a eficiência energética. Esta análise resume os dados de PCF e as novidades de hardware.
Shadow Leak mostra como agentes do ChatGPT podem exfiltrar dados do Gmail via injeção de prompt
Pesquisadores de segurança demonstraram uma injeção de prompt chamada Shadow Leak que usou o Deep Research do ChatGPT para extrair dados de uma caixa de entrada do Gmail. OpenAI corrigiu a falha; o caso destaca riscos de IA com atuação autônoma.
Prever Eventos Climáticos Extremos em Minutos sem Supercomputador com Huge Ensembles (HENS)
NVIDIA e o Lawrence Berkeley National Laboratory apresentam Huge Ensembles (HENS), uma ferramenta de IA de código aberto que prevê eventos climáticos raros e de alto impacto usando 27.000 anos de dados, com opções de código aberto ou prontos para uso.
Playbook dos Grandmasters do Kaggle: 7 Técnicas de Modelagem Testadas para Dados Tabulares
Análise detalhada de sete técnicas testadas por Grandmasters do Kaggle para resolver grandes conjuntos de dados tabulares com aceleração por GPU, desde baselines diversificados até ensemble avançado e pseudo-rotulagem.
Como reduzir gargalos do KV Cache com NVIDIA Dynamo
O Dynamo da NVIDIA transfere o KV Cache da memória da GPU para armazenamento de custo mais baixo, permitindo janelas de contexto maiores, maior concorrência e menor custo de inferência em grandes modelos.
NVIDIA RAPIDS 25.08 Adiciona Novo Profiler para cuML, Melhorias no Motor GPU Polars e Suporte Ampliado de Algoritmos
RAPIDS 25.08 traz profiladores function-level e line-level para cuml.accel, executor streaming padrão no motor GPU Polars, suporte ampliado de tipos e strings, novo Spectral Embedding no cuML e acelerações com zero código para mais algoritmos.