Échelonnement de l’Apprentissage par Renforcement pour l’Assouplissement du Trafic : Déploiement de 100 Véhicules Autonomes sur Autoroute
Sources: http://bair.berkeley.edu/blog/2025/03/25/rl-av-smoothing, bair.berkeley.edu
TL;DR
- 100 voitures contrôlées par apprentissage par renforcement (RL) ont été déployées sur une autoroute réelle pour lisser les congestions et réduire la consommation de carburant de tous les conducteurs.
- En simulation, les économies de carburant atteignaient jusqu’à 20% dans les scénarios les plus congestionnés; sur le terrain, les économies autour des véhicules contrôlés variaient de 15% à 20%, avec une réduction du cluster de congestion.
- Les contrôleurs fonctionnent de manière décentralisée, utilisant uniquement des données locales des capteurs (vitesse du véhicule, vitesse du véhicule précédent et l’écart entre eux) et peuvent être déployés sur des voitures grand public équipées de régulateur de vitesse adaptatif (ACC).
- L’entraînement a utilisé des simulations rapides basées sur des données réelles de trafic pour apprendre des politiques qui apaisent le flux et équilibrent efficacité énergétique, débit et sécurité.
- Le MegaVanderTest représente la plus grande expérience de réduction de trafic à mixité véhicule, établissant une passerelle entre simulation et déploiement sur autoroute sans communication explicite entre les VE.
Contexte et arrière-plan
Les ondes stop-and-go sont des fluctuations fréquentes du trafic sur les autoroutes, où de petites variations dans le comportement des conducteurs s’amplifient et se propagent à travers le flux, entraînant une réduction de l’efficacité énergétique et une augmentation des émissions de CO₂ et des risques d’accident. Les approches traditionnelles, telles que le contrôle des rampes ou les limites de vitesse variables, nécessitent des infrastructures coûteuses ou une coordination centrale. Une alternative scalable consiste à utiliser des véhicules autonomes qui ajustent leur conduite en temps réel pour lisser le trafic. L’apprentissage par renforcement (RL) permet à un agent d’optimiser une récompense par interaction avec l’environnement. Dans ce travail, l’environnement est un scénario de trafic à mixité, où des AV pilotés par RL apprennent des stratégies pour atténuer les ondes stop-and-go et réduire la consommation de carburant pour eux-mêmes et les conducteurs humains voisins. L’entraînement nécessite des simulations rapides et réalistes qui reproduisent les dynamiques d’une autoroute avec des comportements congestionnés. Pour cela, les chercheurs ont construit des simulateurs basés sur des données réelles de la I-24 près de Nashville, en faisant rejouer des trajectoires d’autoroute pour générer des motifs de trafic instables que le RL peut apprendre à atténuer. Les AV sont conçus pour fonctionner avec des informations simples issues des capteurs eux-mêmes et du véhicule qui précède. Les observations comprennent la vitesse du véhicule, la vitesse du véhicule en tête et l’écart entre les deux. Avec ces entrées, l’agent RL détermine soit une accélération instantanée, soit une vitesse désirée pour l’AV. Cette approche permet une déploiabilité décentralisée sur la plupart des véhicules modernes sans infrastructure additionnelle. Le principal défi est la conception d’une fonction de récompense qui équilibre énergie, débit et sécurité. Des seuils dynamiques d’écart minimum et maximum sont introduits pour assurer un comportement sûr tout en optimisant l’efficacité énergétique, et une pénalité est appliquée à la consommation de carburant des conducteurs humains derrière l’AV pour éviter des comportements égoïstes. Les résultats en simulation ont montré que les politiques apprises pouvaient lisser le trafic et améliorer l’efficacité énergétique. Dans les scénarios les plus congestionnés, l’économie de carburant pouvait atteindre 20% pour l’ensemble des usagers lorsque moins de 5% des véhicules étaient des AV.
Nouvelles évolutions
Le projet est passé de la simulation à un essai sur route à grande échelle avec 100 véhicules contrôlés par RL sur l’I-24 pendant les heures de pointe, sur plusieurs jours. Cet épreuve MegaVanderTest constitue l’expérience la plus vaste de réduction de trafic à mixité réalisée à ce jour. Avant le déploiement sur le terrain, les contrôleurs RL ont été entraînés et validés en simulation puis testés sur le matériel. Sur le terrain, des caméras placées en hauteur ont capturé des trajectoires de millions de véhicules, permettant une reconstruction de la dynamique du trafic via un pipeline de vision par ordinateur. Les résultats du terrain sont alignés sur les attentes: on observe une réduction du coût énergétique autour des VE contrôlés et une réduction du cluster de congestion, avec une moindre variance des vitesses et des accélérations. Le test à 100 véhicules était décentralisé, sans coopération explicite entre les AV, reflétant les déploiements actuels. Les contrôleurs s’intègrent aussi aux systèmes ACC existants, démontrant une faisabilité de déploiement à grande échelle sans plates-formes spécifiques.
Pourquoi cela compte (impact pour développeurs/entreprises)
- Efficacité énergétique et émissions: même avec une part modeste de AV, l’approche produit des gains d’énergie pour le trafic environnant et peut réduire les émissions globales.
- Déployabilité et évolutivité: les contrôleurs fonctionnent avec des capteurs et des systèmes ACC déjà présents, sans infrastructure coûteuse, facilitant une adoption à grande échelle.
- Sécurité et comportement: la conception de la récompense favorise un comportement sûr et coopératif plutôt que la recherche superficielle du gain d’énergie.
- Pont entre simulation et réalité: l’étude met l’accent sur des simulations rapides basées sur des données réelles comme étape clé pour amener le contrôle RL du domaine de recherche vers une utilisation pratique.
- Opportunités futures: des gains supplémentaires pourraient provenir de modèles de conducteurs humains plus riches, de simulations plus rapides et d’éventuelles communications entre AVs (par exemple via 5G) pour une meilleure stabilité.
Détails techniques ou Mise en œuvre
Observations et actions
- L’agent RL observe la vitesse du véhicule autonome, la vitesse du véhicule qui le précède et l’écartement entre les deux.
- La politique produit soit une accélération instantanée, soit une vitesse désirée pour l’AV, permettant une adaptation fluide au trafic en amont.
- Cette configuration minimale permet une implantation pratique sur des voitures grand public utilisant des capteurs existants.
Conception de la récompense
- La récompense équilibre énergie, débit et conduite sûre. Un contrôle excessif sur l’énergie pourrait pousser l’AV à s’arrêter au milieu de l’autoroute; pour éviter cela, des seuils dynamiques de distance sont imposés.
- La récompense pénalise également la consommation de carburant des conducteurs humains derrière l’AV, dissuadant les gains énergétiques égoïstes.
- Le comportement résultant privilégie des écarts légèrement plus importants, permettant aux AV d’absorber les ralentissements brusques plus efficacement.
Données d’entraînement et simulation
- Les simulations utilisent des données réelles collectées sur l’I-24, et des trajectoires autoroutières sont rejouées pour générer des motifs de trafic instables à apprendre par RL.
- L’environnement modélise un trafic à mixité où les AV apprennent des stratégies pour atténuer les ondes et maintenir le débit et la sécurité.
- L’un des grands avantages est la possibilité d’entraîner rapidement avec des simulations basées sur des données réelles.
Mise en œuvre sur le terrain
- Les contrôleurs RL entraînés ont été déployés sur 100 véhicules sur l’I-24 pendant les heures de pointe matinales sur plusieurs jours.
- Le trafic environnant n’était pas rendu conscient de l’expérience afin d’obtenir des comportements non biaisés.
- Les données ont été collectées à partir de caméras au-dessus de la route et d’un pipeline de vision pour extraire des trajectoires de millions de véhicules.
- Les résultats indiquent une réduction du cluster de congestion et une diminution du coût énergétique autour des véhicules contrôlés, en accord avec les résultats de la simulation.
Sécurité, interopérabilité et évolutivité
- L’essai était décentralisé, sans communication explicite entre les AV, ce qui est cohérent avec les déploiements actuels de l’autonomie.
- Les contrôleurs se connectent aux systèmes ACC existants, ouvrant la voie à une adoption à grande échelle sur des voitures grand public.
- L’étude suggère des améliorations futures comme des modèles de conducteurs humains plus riches, des simulations plus rapides et l’exploration d’une communication explicite entre AVs (p. ex. via 5G) pour optimiser encore plus la stabilité.
FAQ
Références
More news
Les checklists surpassent les modèles de récompense pour l’alignement des modèles de langage
Une approche RL utilisant des checklists dérivées des instructions guide l’alignement et surpasse les modèles de récompense fixes sur plusieurs benchmarks du Qwen2.5-7B-Instruct, présentée à l’ICLR 2025.
Apprentissage par renforcement avec NVIDIA NeMo-RL : Megatron-Core pour un débit d’entraînement optimisé
NeMo-RL v0.3 introduit le backend Megatron-Core pour optimiser le throughput post-formation sur les grands modèles, avec parallélisme 6D, support du long contexte et réglage automatique.
Scale du RL des LLM par un entraînement prolongé : ProRL v2
La recherche NVIDIA présente ProRL v2, un cadre de reinforcement learning prolongé pour les LLMs, avec de nouvelles méthodes et résultats empiriques démontrant des gains soutenus au-delà des scénarios d’entraînement traditionnels.
Défense contre l’injection de prompts avec StruQ et SecAlign : requêtes structurées et optimisation des préférences
BAIR de Berkeley présente StruQ et SecAlign comme défenses contre l’injection de prompts dans les applications LLM, avec Front-End Sécurisé, stratégies d’entraînement et améliorations de robustesse.
PLAID : Réutiliser les modèles de pliage des protéines pour une génération multimodale par diffusion latente
PLAID réutilise des modèles de pliage des protéines pour générer à la fois la séquence et la structure 3D via une diffusion latente, facilitant la conception de protéines guidée par la fonction et l’organisme.
Anthology : des personnalités virtuelles pour les LLMs via des backstories riches
Le laboratoire BAIR de Berkeley présente Anthology, une méthode qui conditionne les LLMs à des personas virtuelles représentatifs, cohérents et divers en utilisant des narratifs de vie riches. L’approche est évaluée sur des enquêtes Pew et discute des implications, de l’éthique et des perspectives f