Scale du RL des LLM par un entraînement prolongé : ProRL v2

TL;DR

ProRL v2 étend l’apprentissage par renforcement pour les grands modèles de langage (LLMs) avec des milliers d’étapes RL supplémentaires pour tester des améliorations soutenues.
Il s’appuie sur REINFORCE++ et introduit des innovations telles que la perte PPO-Clip, Clip-Higher, la Normalisation de lot globale et l’Échantillonnage dynamique pour améliorer stabilité et exploration.
Les techniques clés incluent une perte PPO-Clip, la normalisation de groupe, une borne de clipping plus élevée et des resets périodiques de la politique de référence pour éviter la stagnation.
Les résultats montrent des performances de pointe et des améliorations soutenues sur les tâches mathématiques, la génération de code et les raisonnements variés, même avec des longueurs de contexte réduites.
Des modèles open-source et des benchmarks sont disponibles pour la reproductibilité et l’exploration ultérieure. Citation inline : Le blog officiel de NVIDIA décrit ProRL v2 à l’adresse suivante : NVIDIA Research.

Contexte et historique

La question centrale en IA est de savoir si les grands modèles de langage peuvent continuer à s’améliorer lorsqu’ils sont soumis à un RL prolongé, plutôt que de plafonner après des plannings d’entraînement classiques. Prolonged Reinforcement Learning (ProRL) est la réponse de NVIDIA Research, et ProRL v2 représente son évolution la plus récente. L’objectif n’est pas de réutiliser des solutions connues, mais d’étendre réellement ce que le modèle peut découvrir sous RL prolongé. ProRL v2 étend l’original en s’appuyant sur des algorithmes avancés, une régularisation rigoureuse et une couverture de domaine étendue pour explorer des gains mesurables lorsque des milliers d’étapes RL supplémentaires sont effectuées. Ce travail s’appuie sur la baseline REINFORCE++ qui utilise une normalisation de l’avantage par lot global pour améliorer la stabilité de l’entraînement RLVR. L’approche introduit plusieurs techniques destinées à améliorer l’exploration, l’efficacité de l’apprentissage, la stabilité et la qualité des sorties au fil du temps. Les auteurs insistent sur le fait que le RL à court terme présente souvent de l’instabilité et des rendements décroissants, créant l’impression que le RL n’apporte plus d’avantages alors qu’il est possible d’élargir les capacités avec des stratégies prolongées.

Ce qui est nouveau

ProRL v2 apporte un ensemble d’innovations pour stabiliser et accélérer l’apprentissage lors du RL prolongé et favoriser la découverte réelle :

Au cœur, une perte PPO-Clip qui stabilise les mises à jour de politique en limitant l’écart entre la nouvelle et l’ancienne politique.
Normalisation globale de lot dans REINFORCE++ pour atténuer l’instabilité de valeur due aux petits groupes; on retranche d’abord la moyenne des récompenses du petit groupe pour remodeler les récompenses, puis on applique la normalisation globale.
Normalisation de groupe : « group normalization » où un groupe correspond à toutes les réponses générées pour le même prompt.
Clip-Higher augmente la borne supérieure du clipping PPO pour favoriser l’exploration et la diversité des politiques échantillonnées.
Échantillonnage dynamique : les prompts dont les réponses du groupe sont toutes correctes ou toutes incorrectes sont ignorés pour réduire le bruit dans les gradients.
Concision : une pénalité de longueur par cosinus est appliquée pour encourager des sorties concises et efficaces, avec des périodes d’activation/désactivation régulières.
Régularisation : une pénalité KL maintient la politique proche d’une référence, avec des resets périodiques pour éviter l’enfermement dans une stratégie obsolète.
Reset périodique : tous les 200–500 pas de RL (ou en cas de pics KL/validation stagnante), la politique de référence est réinitialisée par rapport à la politique courante, sans effacer l’état de l’optimiseur.
Contextes et performances : les progrès subsistent même si la longueur du contexte d’entraînement est réduite de 16K à 8K, diminuant les coûts tout en améliorant la précision.
Évaluation : ProRL a été évalué sur des tâches de mathématiques, de génération de code et des benchmarks de raisonnement divers, avec des gains robustes sur un large éventail de tâches, incluant des cas difficiles et hors distribution.
Disponibilité : des modèles et benchmarks open-source sont disponibles pour la reproductibilité et la validation par la communauté, avec une invitation à explorer les modèles ProRL sur Hugging Face.

Tableau : gains entre 2K-step et 3K-step (cadre)

|Variante | Longueur de contexte (approx.) | Tendance rapportée |---|---|---| | Modèle 2K-step |passage de 16K à 8K| montre des gains de performance par rapport au modèle de base |Modèle 3K-step | entraînement supplémentaire par rapport au 2K-step | démonstre une amélioration continue par rapport au modèle 2K-step | Ces points reflètent les mécanismes cités et les résultats annoncés dans la publication ProRL v2, avec un accent sur la stabilité, l’exploration et les réinitialisations périodiques de l’orientation d’apprentissage.

Détails d’implémentation

Pour les praticiens, ProRL v2 offre une stratégie reproductible et ouverte pour reproduire et étendre les expériences. L’approche combine normalisations, mises à jour de politique régulées et contrôles d’exploration structurés pour relever les défis du RL à long terme pour les LLMs. Le texte souligne le potentiel d’un apprentissage continu et d’amplifications des capacités de raisonnement via RL prolongé, avec des entraînements en cours et des améliorations de précision signalées.

Conclusions principales

ProRL v2 ouvre la voie à des améliorations soutenues des performances des LLMs via un RL prolongé et une régularisation avancée.
L’association PPO-Clip, REINFORCE++ avec normalisation globale, Clip-Higher et l’Échantillonnage dynamique stabilise l’apprentissage et favorise une exploration diversifiée.
Les resets périodiques et la pénalité de longueur cosinus aident à éviter l’enfermement dans une référence et à encourager des sorties concises et précises.
Des gains sont observés en mathématiques, génération de code et raisonnement, même avec une réduction du contexte, ce qui indique une efficacité computationnelle associée à l’amélioration de la précision.
Les modèles et benchmarks open-source favorisent la reproductibilité et la validation par la communauté.

FAQ

- **Q : Qu’est-ce que ProRL v2 ?**

ProRL v2 est la version la plus récente du Prolonged Reinforcement Learning pour les LLMs par NVIDIA Research, conçue pour tester des gains soutenus avec des milliers d’étapes RL supplémentaires et une série de techniques nouvelles. - **Q : Quelles sont les innovations clés de ProRL v2 ?** **A :** PPO-Clip, REINFORCE++ avec normalisation de lot globale, normalisation de groupe, Clip-Higher, Échantillonnage dynamique, pénalité de longueur cosinus, pénalité KL et resets périodiques de la référence. - **Q : Sur quelles tâches ProRL v2 a-t-il été évalué ?** **A :** Mathématiques, génération de code et benchmarks variés de raisonnement, avec des gains robustes sur des tâches difficiles et hors distribution. - **Q : ProRL v2 peut-il fonctionner avec des contextes plus courts ?** **A :** Oui; les résultats montrent des améliorations même lorsque le contexte est réduit (de 16K à 8K), indiquant des bénéfices d’efficacité. - **Q : Où trouver des modèles ProRL ?** **A :** Des modèles et benchmarks open-source sont disponibles; consultez le blog NVIDIA pour les détails.