Skip to content
A decorative image.
Source: developer.nvidia.com

R²D² : Optimiser l’entraînement des robots avec des World Foundation Models et des flux de travail de NVIDIA Research

Sources: https://developer.nvidia.com/blog/r2d2-boost-robot-training-with-world-foundation-models-and-workflows-from-nvidia-research, developer.nvidia.com

TL;DR

  • Les World Foundation Models (WFMs) simulent, prédisent et raisonnent sur les états futurs du monde pour enrichir les données de l’IA physique.
  • NVIDIA Cosmos propose des WFMs avec trois modèles post-entrainables : Cosmos Predict, Cosmos Transfer et Cosmos Reason.
  • Cosmos Predict génère des états futurs sous forme de vidéos à partir de prompts textuels, d’images ou de vidéos, et prend en charge des scénarios post-entrainement tels que Multi-Vue à partir d’une seule vue et l’éclairage par relighting.
  • Cosmos Transfer crée des simulations réalistes à partir de multiples entrées pour augmenter la diversité des données et améliorer le transfert sim-to-real en robotique et conduite autonome.

Contexte et arrière-plan

À mesure que les systèmes d’IA physique se développent, la demande de jeux de données étiquetés de haute qualité dépasse ce qui peut être capturé dans le monde réel. Les World Foundation Models (WFMs) sont des modèles d’IA génératifs conçus pour simuler, prévoir et raisonner sur les états futurs du monde en s’appuyant sur la dynamique des environnements réels. NVIDIA présente Cosmos comme une plateforme de développement de WFMs pour l’IA physique, notamment la robotique et les véhicules autonomes. Les WFMs de Cosmos existent sous trois formes post-entrainables adaptées à des applications spécifiques : Cosmos Predict, Cosmos Transfer et Cosmos Reason. Chaque type de modèle apporte un rôle distinct dans le cycle des données : génération, diversification et curation/annotation, avec un accent marqué sur le réalisme physique et les décisions exploitables pour les robots et les systèmes automatisés. Cette édition du NVIDIA Robotics Research and Development Digest (R2D2) se penche sur les WFMs de Cosmos et les flux de travail issus de la Recherche NVIDIA. Elle explique comment ces modèles s’insèrent dans les pipelines de génération de données synthétiques (SDG) et de curation, aidant les développeurs à créer des ensembles de données plus riches et variés sans nécessiter des captures réelles massives. L’idée centrale est d’utiliser la génération, la prévision et le raisonnement pour réduire l’écart entre les données synthétiques et les performances dans le monde réel, permettant une perception, une planification et une exécution plus fiables en environnement réel. Les WFMs Cosmos regroupent une famille de capacités conçues pour être post-entraînées dans des domaines comme la robotique et la vision industrielle. L’objectif est de soutenir la compréhension spatiale, la planification des trajectoires et l’exécution de tâches complexes dans des environnements dynamiques. Pour une vue d’ensemble, le digest évoque aussi les événements et ressources comme SIGGRAPH 2025 où NVIDIA présente les WFMs de nouvelle génération à destination des développeurs et partenaires industriels. Les WFMs Cosmos se déclinent en trois types de modèles qui peuvent être adaptés à des cas d’usage spécifiques : Cosmos Predict, Cosmos Transfer et Cosmos Reason. Chaque modèle répond à des besoins différents du cycle de données : génération, diversification et raisonnement/annotation, avec un accent fort sur le réalisme physique et les insights opérationnels pour la robotique et la conduite autonome. La collaboration entre génération et raisonnement permet des pipelines SDG plus efficaces et des données d’entraînement de qualité supérieure pour l’IA physique. Pour les développeurs et les entreprises qui évaluent des stratégies SDG, Cosmos offre une voie structurée pour augmenter les données synthétiques avec de la diversité et pour curer des données de manière alignée aux tâches réelles. Le texte illustre des cas d’usage concrets, comme la génération de données multi-vues pour les véhicules autonomes à partir d’un seul flux et la simulation d’environnements riches, tout en conservant le réalisme et la pertinence des tâches. Pour approfondir, l’article rappelle que Cosmos Predict peut être post-entrainé pour des applications d’IA physique, permettant de générer des cadres futurs réalistes à partir de modalités d’entrée variées. Par exemple, une entrée vidéo unique peut être transformée en séquences multi-vues pour le développement des véhicules autonomes ou être relampées via le pipeline. Cosmos Transfer montre comment les invites textuelles et une variété d’entrées de contrôle peuvent façonner des scènes synthétiques avec une diversité contrôlée, élément clé des pipelines SDG robustes. Cosmos Reason apporte une dimension cognitive à SDG, en comprenant le sens physique commun et en guidant les décisions incarnées. Le Reason est entraîné en deux étapes : ajustement supervisé (SFT) et apprentissage par renforcement (RL). Le SFT peut améliorer la performance sur des tâches spécifiques, par exemple en robotics VQA lorsqu’il est entraîné avec des jeux de données comme robovqa. Reason peut être adapté à des domaines particuliers pour devenir plus utile dans des tâches robotiques réelles et pour aligner les données sur les objectifs opérationnels.

Pourquoi cela compte (impact pour les développeurs/entreprises)

Pour les développeurs travaillant sur des systèmes robotiques ou l’IA de vision industrielle, le cadre Cosmos offre une approche centrée sur les données pour le développement d’IA physique. Pouvoir post-entraînement des WFMs sur des données de domaine signifie obtenir une meilleure fidélité en perception, planification et exécution des tâches. Les implications pratiques incluent :

  • Accélération des pipelines SDG : Predict et Transfer générent et diversifient rapidement les données synthétiques, réduisant les coûts et le temps nécessaire pour des ensembles étiquetés volumineux.
  • Amélioration du transfert sim-to-real : En introduisant une plus grande diversité visuelle et des variations physiques, les modèles entraînés sur les données Cosmos se généralisent mieux aux environnements réels.
  • Qualité des données via le raisonnement : Reason agit comme critique, aidant à curer les données d’entraînement et à refléter les contraintes du monde réel dans les tâches robotiques.
  • Ajustement par tâche via SFT/RL : Affiner Reason avec des données de domaine permet d’améliorer les performances sur des tâches spécifiques, renforçant ainsi la fiabilité des systèmes. Pour les entreprises, ces capacités se traduisent par des systèmes robotiques plus fiables, des cycles de déploiement plus courts et une approche scalable pour collecter et étiqueter des données adaptées à la complexité des tâches réelles. Générer des données multi-vues à partir d’une source unique et simuler des environnements riches permet de réduire la dépendance à la collecte sur le terrain tout en conservant le réalisme nécessaire à la tâche.

Détails techniques ou Mise en œuvre

La famille Cosmos s’articule autour de trois types de modèles post-entraînés, chacun servant un rôle précis dans le cycle des données.

Cosmos Predict

  • Objectif : générer des états futurs sous forme de vidéos à partir de prompts.
  • Entrées : prompts textuels, images ou vidéos.
  • Sorties : vidéos avec des frames futures cohérentes et physiquement plausibles.
  • Cas d’usage : accélération du SDG et du post-entraînement pour des modèles robotiques et de conduite autonome; supports de tâches comme Multi-Vue à partir d’une vue et relighting.
  • Remarques : peut être post-entraîné pour des domaines spécifiques.

Cosmos Transfer

  • Objectif : créer des scènes du monde simulées à partir de multiples entrées de contrôle.
  • Entrées : cartes de segmentation, profondeur, cartes de contours, scans LiDAR, keypoints, cartes HD, et prompts texte.
  • Sorties : scènes synthétiques photoréalistes et variées.
  • Cas d’usage : enrichir les jeux de données synthétiques et améliorer le transfert sim-to-real en robotique et conduite autonome.
  • Remarques : plusieurs modalités facilitent le contrôle de la composition et la diversité des caractéristiques visuelles.

Cosmos Reason

  • Objectif : raisonnement pour comprendre le sens physique et guider les décisions incarnées.
  • Entrées : données SDG et tâches associées; intégré comme critique et annotateur dans le pipeline.
  • Sorties : séquences d’actions, annotations et directives pour la curation et les tâches robotiques.
  • Entraînement : deux étapes — ajustement supervisé (SFT) et apprentissage par renforcement (RL).
  • Cas d’usage : amélioration du VQA robotiques, qualité des données VLA et alignement des données avec les tâches réelles.
  • Remarques : le SFT peut adapter Reason à des domaines spécifiques et RL optimise les décisions dans les tâches incarnées. | Type de modèle | Capacité principale | Entrées typiques | Sorties | Cas d’usage principal |---|---|---|---|---| | Cosmos Predict | Génération de vidéos d’états futurs | Texte, images, vidéos | Vidéo avec des frames futurs cohérentes | SDG et formation post-entraînement |Cosmos Transfer | Systématisation de scènes à partir d’entrées | Segmentation, profondeur, contours, LiDAR, keypoints, maps HD, prompts | Scènes synthétiques photoréalistes | Diversification et transfert sim-to-real |Cosmos Reason | Raisonnement pour la curation de données | Données SDG et prompts | Séquences d’actions, annotations | Qualité des données et alignement task-oriented | Reason peut agir comme critique dans SDG, évaluant et annotant les données générées pour assurer leur adéquation aux contraintes réelles avant l’entraînement. Le Reason est formé en deux étapes (SFT puis RL) pour s’adapter à des tâches précises, comme le robotics VQA lorsque l’entraînement intègre des jeux de données dédiés comme robovqa. L’article indique qu’un exemple de commande pour lancer un entraînement SFT est fourni dans la source.

Points clés

  • Les WFMs offrent une approche centrée sur les données pour étendre l’IA physique via génération, diversification et raisonnement.
  • Cosmos propose trois WFMs post-entraînables (Predict, Transfer, Reason) pour des pipelines SDG complets.
  • Le post-entraînement permet un ajustement par domaine et une meilleure généralisation du monde réel grâce à la diversité synthétique.
  • Reason ajoute une couche cognitive qui améliore la curations des données et les tâches robotiques grâce à une évaluation axée sur des constraints physiques réelles.
  • L’intégration de SFT et RL permet d’affiner Reason pour des scénarios spécifiques et garantir une meilleure robustesse opérationnelle.

FAQ

  • Qu’est-ce que les World Foundation Models (WFMs) ?

    Des modèles d’IA génératifs conçus pour simuler, prédire et raisonner sur les états futurs du monde à partir de la dynamique réelle.

  • uels sont les types de modèles Cosmos et leurs rôles ?

    Cosmos Predict génère des frames futurs, Cosmos Transfer crée des scènes synthétiques à partir d’entrées multiples et Cosmos Reason raisonne sur les données pour la curation et les décisions embarquées.

  • Comment Reason améliore les workflows SDG ?

    Reason apprend via SFT et RL pour comprendre le sens physique et guider la curation des données, améliorant les performances dans des tâches robotiques comme VQA.

  • u’est-ce que Single2MultiView ?

    Une variante post-entraînée de Cosmos Predict qui génère plusieurs perspectives de caméra synchronisées à partir d’une seule vidéo de conduite autonome.

  • En quoi ces outils impactent SDG et le déploiement réel ?

    Ils accélèrent la génération et la diversité des données, améliorent le transfert sim-to-real et soutiennent une curation orientée tâche pour des IA physiques plus fiables.

Références

More news