Escalando el RL de LLM con Entrenamiento Prolongado usando ProRL v2

TL;DR

ProRL v2 amplía el aprendizaje por refuerzo prolongado (RL) para modelos de lenguaje grande (LLMs) a miles de pasos RL adicionales, probando si el entrenamiento sostenido genera progreso medible.
Se apoya en la línea base REINFORCE++ e incorpora mejoras como Clip-Higher, muestreo dinámico y normalización global y por grupo para estabilizar el aprendizaje y la exploración.
Las innovaciones clave incluyen una pérdida PPO-Clip, límites de clipping más altos, una penalización de longitud programada (cosine) para la eficiencia de tokens y penalizaciones KL, además de reinicios periódicos de la política de referencia para evitar estancamiento.
Las evaluaciones abarcan matemáticas, generación de código y benchmarks de razonamiento diversos, mostrando rendimiento de vanguardia y mejoras sostenidas incluso con una longitud de contexto reducida (16K → 8K).
El trabajo ofrece una receta de entrenamiento reproducible con modelos y benchmarks de código abierto; se puede explorar ProRL en Hugging Face.

Contexto y antecedentes

Una cuestión central en IA es si los LLMs pueden seguir mejorando cuando se someten a RL prolongado más allá de los calendarios de entrenamiento habituales. ProRL v2, desarrollado por NVIDIA Research, representa la evolución más reciente de Prolonged Reinforcement Learning (ProRL) para explorar los efectos del RL prolongado en las capacidades de LLM. Combinando algoritmos avanzados, regularización rigurosa y una cobertura amplia de dominios, ProRL v2 busca ir más allá de simplemente reencontrar soluciones conocidas para expandir genuinamente lo que los modelos pueden descubrir. El enfoque enfatiza recompensas verificables por programa para impulsar a los modelos hacia territorios realmente nuevos, mientras aborda la inestabilidad y los retornos decrecientes típicamente asociados al RL de corto horizonte. ProRL v2 se basa en la línea de base REINFORCE++ e incorpora componentes para mejorar la estabilidad, la exploración y la eficiencia a lo largo de miles de pasos de RL. Los resultados muestran mejoras sostenidas en tareas de matemáticas, código y razonamiento, abarcando tareas desafiantes y fuera de distribución.

Qué hay de nuevo

ProRL v2 introduce un conjunto de innovaciones para permitir RL más largo y eficaz para LLMs:

En el núcleo, una pérdida PPO-Clip que estabiliza las actualizaciones de política al limitar las divergencias entre la política antigua y la nueva.
Normalización por grupo aplicada a todas las respuestas para un mismo prompt, promoviendo estadísticas consistentes dentro del grupo.
Normalización de lote global en la baseline REINFORCE++ para evitar la inestabilidad de valor causada por tamaños de grupo pequeños.
Clip-Higher aumenta el límite superior del clipping del PPO para evitar el colapso de entropía y fomentar la diversidad de la política.
Dynamic Sampling descarta prompts cuyas respuestas del grupo son todas 1 (correcto) o todas 0 (incorrecto) para reducir el ruido en los gradientes.
Una penalización de longitud programada por cosine promueve salidas concisas y eficientes en tokens, con ciclos de activación/apagado.
Una penalización KL mantiene la política cerca de una política de referencia, con reinicios periódicos para evitar sobreajuste.
Reinicios periódicos de la política de referencia ocurren cada 200–500 pasos de RL (o ante picos de KL o validación estancada), estableciendo la política actual como nueva referencia sin borrar el estado del optimizador, para mantener la dinámica de aprendizaje.
La combinación de las penalizaciones de longitud y reinicios de referencia ayuda a evitar limitaciones de contexto y de guía fija, apoyando mejoras continuas en precisión y rendimiento general.
ProRL v2 fue evaluado en matemáticas, generación de código y tareas de razonamiento diversas, formando un conjunto de pruebas robusto para LLMs.
Los resultados señalan mejoras sostenidas y rendimiento de punta en múltiples dominios, incluso con longitudes de contexto reducidas.

Por qué importa (impacto para desarrolladores/empresas)

Demostración de mejoras sostenidas: ProRL v2 reporta rendimiento de punta y ganancias sólidas en matemáticas, código y razonamiento, sugiriendo que el RL prolongado puede ampliar significativamente las capacidades de los LLMs más allá de los cronogramas de entrenamiento tradicionales.
Cobertura amplia: las evaluaciones incluyen tareas desafiantes y fuera de distribución, lo que indica una mejor generalización para escenarios reales.
Receta reproducible: con modelos y benchmarks de código abierto, el marco ofrece una base para que investigadores y equipos validen, reproduzcan y amplíen estos resultados.
Potencial de eficiencia: la reducción del contexto, sin perder precisión, puede disminuir costos computacionales en entornos de RL prolongado.
Acceso comunitario: NVIDIA invita a la comunidad a explorar y validar estos hallazgos mediante modelos y benchmarks abiertos.

Detalles técnicos o Implementación

Metodología central: ProRL v2 amplía la baseline REINFORCE++ con normalización de ventaja de lote global y mecanismos adicionales para estabilizar y mejorar el aprendizaje a lo largo de miles de pasos de RL.
Actualizaciones basadas en PPO-Clip: la pérdida utiliza un objetivo proximal con clipping para limitar grandes cambios de política entre actualizaciones.
Estrategias de normalización: la normalización en grupo opera sobre todas las respuestas para un único prompt, mientras que la normalización de lotes global ajusta las recompensas para reducir la varianza.
Mejoras de exploración: Clip-Higher mantiene la exploración necesaria y la diversidad de políticas muestreadas.
Reducción de ruido en gradientes: Dynamic Sampling filtra prompts con respuestas completamente correctas o incorrectas, reduciendo la varianza.
Eficiencia de tokens: penalidad de longitud por cosine programada para outputs más concisos y eficientes.
Regularización y adaptación: penalidad KL y reinicios periódicos de la política de referencia permiten un aprendizaje continuo.
Contexto y escala: los resultados se obtuvieron con diferentes configuraciones de contexto y tamaño de modelo para evaluar estabilidad y rendimiento.
Alcance de evaluación: matemáticas, código y razonamiento cubren un conjunto amplio de tareas.

Puntos clave y tabla

| Comparación | Descripción

---
2K-step vs base
3K-step vs 2K-step
Longitud de contexto

Conclusiones clave

El RL prolongado con las innovaciones de ProRL v2 puede generar mejoras sostenidas en LLMs, no solo ganancias puntuales.
La combinación de estabilidad, normalización y estrategias de exploración resulta eficaz para RL de largo plazo en LLMs.
Re-iniciar periódicamente la política de referencia ayuda a evitar estancamientos y mantiene el aprendizaje dinámico.
La reducción de contexto puede disminuir costos computacionales sin sacrificar precisión en campañas de RL prolongadas.
Los resultados en matemáticas, código y razonamiento señalan un potencial amplio de aplicación para sistemas de IA que requieren razonamiento profundo.

FAQ

¿Qué es ProRL v2?

Es la evolución más reciente del Prolonged Reinforcement Learning para LLMs, diseñada para probar los efectos de miles de pasos RL adicionales y ampliar los límites del aprendizaje.
¿En qué se diferencia ProRL v2 del RL tradicional?

Combina PPO-Clip con clipping, normalización de grupo y global, Clip-Higher, Dynamic Sampling, penalidad coseno de longitud y reinicios periódicos de la referencia para mantener la estabilidad y la exploración a lo largo de entrenamientos prolongados.
¿Cuál es el papel de los reinicios de la política de referencia?

Evitan que el aprendizaje quede sujeto a instrucciones desactualizadas y mantienen el impulso de aprendizaje durante campañas largas de RL.
¿Qué benchmarks se utilizaron para evaluar ProRL v2?

Matemáticas, generación de código y tareas de razonamiento diversas, incluidas tareas desafiantes y fuera de distribución.