R²D²: Potenciar el entrenamiento de robots con Modelos de Fundamento Mundial y flujos de trabajo de NVIDIA Research

TL;DR

Los modelos de fundación mundial WFMs son modelos generativos que simulan, predicen y razonan sobre estados futuros del mundo, ampliando conjuntos de datos ricamente etiquetados para IA física.
NVIDIA Cosmos ofrece tres WFMs que pueden post entrenarse para robótica y vehículos autónomos: Cosmos Predict, Cosmos Transfer y Cosmos Reason, permitiendo generación y curación de datos sintéticos.
Cosmos Predict genera cuadros futuros a partir de prompts de texto, imágenes o videos; Cosmos Transfer soporta transferencias de estilo fotorrealistas desde entradas 2D y prompts; Cosmos Reason es un VLM de razonamiento que puede curar, anotar y post entrenarse como un modelo VLA de robótica.
El artículo presenta flujos de trabajo y ejemplos de post entrenamiento como Single2MultiView para vehículos autónomos, relighting de video, generación de video RGB desde prompts con mapas HD, y el uso de Cosmos Reason como crítico de SDG con entrenamiento en dos etapas y aprendizaje por refuerzo.

Contexto y antecedentes

A medida que los sistemas de IA física, como robots y vehículos autónomos, avanzan, la demanda de conjuntos de datos ricamente etiquetados crece más allá de lo que se puede capturar en el mundo real. Los modelos de fundación mundiales WFMs están diseñados para simular, predecir y razonar sobre estados futuros del mundo, aprovechando la dinámica de entornos reales. Cosmos de NVIDIA es una plataforma dedicada al desarrollo de WFMs para IA física. La familia Cosmos incluye tres tipos de modelos que pueden ser post entrenados para tareas específicas: Cosmos Predict, Cosmos Transfer y Cosmos Reason. Estos WFMs se utilizan para generar y curar datos que entrenan IA física y visión industrial, para entender la conciencia espacial, planificar trayectorias y realizar tareas complejas. Cosmos Predict puede tomar entradas en forma de texto, imágenes o videos y generar cuadros futuros que sean coherentes y físicamente plausibles. Esta capacidad acelera la generación de datos sintéticos para el entrenamiento posterior de modelos de IA usados en robótica y conducción autónoma, ampliando rápidamente escenarios más allá de lo que es factible capturar en el mundo real. Un ejemplo de post entrenamiento es Single2MultiView para vehículos autónomos, una versión de Cosmos Predict que crea perspectivas de cámara múltiples y consistentes a partir de un video frontal único, proporcionando material sincronizado para el desarrollo de VE. Otras demostraciones incluyen GR00T entrenado con datos GR1 y comandos para reluzado de video. Cosmos Transfer se centra en simulaciones del mundo basadas en múltiples entradas de control como mapas de segmentación, mapas de profundidad, mapas de contorno, escaneos LiDAR, puntos clave y mapas HD. Esta diversidad de modalidades permite a los usuarios controlar la composición de la escena mientras generan características visuales diversas a través de prompts de texto. El objetivo es aumentar la diversidad visual de los conjuntos de datos sintéticos y mejorar la transferencia de sim a real en robótica y conducción autónoma. Un flujo de trabajo muestra cómo generar un video RGB desde un prompt de texto y un video de condición con mapa HD. Cosmos Reason es un modelo de fundación mundial centrado en el razonamiento para IA física. Comprende el sentido común físico y toma decisiones incorporadas a través de un razonamiento en cadena. Esto es útil para curar datos de SDG de alta calidad, ya que entiende secuencias de acciones y restricciones del mundo real. El modelo se ha entrenado en dos etapas: ajuste fino supervisado SFT y aprendizaje por refuerzo. El entrenamiento SFT puede mejorar el rendimiento del Reason en tareas específicas; por ejemplo, entrenar con el conjunto robovqa puede mejorar casos de uso de robótica en preguntas y respuestas visuales. Para investigadores y desarrolladores, esta edición del Robotics Research and Development Digest de NVIDIA explora cómo los WFMs Cosmos y los flujos de trabajo de investigación de NVIDIA desempeñan un papel importante en la generación de datos sintéticos y la curación para aplicaciones de IA física. Se destacan las oportunidades de aplicar estos flujos en la práctica y se señalan recursos como SIGGRAPH 2025.

Novedades

Este artículo presenta una visión detallada de los WFMs Cosmos y los flujos de trabajo que NVIDIA Research ha desarrollado para apoyar la generación de datos sintéticos y la curación para IA física. Puntos clave:

Post entrenamiento de variantes Cosmos Predict para tareas de IA física; Cosmos Predict puede adaptarse a robótica y vehículos autónomos generando cuadros futuros en múltiples modalidades.
Ejemplos de post entrenamiento como Single2MultiView para generar secuencias multi vista sincronizadas a partir de un único video frontal.
Flujos Cosmos Transfer que generan simulaciones del mundo a partir de múltiples entradas de control, aumentando la diversidad visual para SDG y la transferencia sim a real en robótica y VE.
Cosmos Reason como VLM de razonamiento que entiende el sentido común físico y puede actuar como crítico durante SDG, comprendiendo secuencias de acciones y restricciones reales.
Entrenamiento en dos etapas para Reason, SFT y RL, con ejemplos como robovqa que demuestran mejoras en tareas de robótica de preguntas y respuestas visuales.
Consideraciones prácticas para desarrolladores que deseen aprovechar estos flujos de trabajo, incluida la forma de aplicar SFT y RL para mejorar Reason en tareas específicas, y cómo acceder a recursos como SIGGRAPH 2025 y cursos gratuitos de Fundamentos de Robótica de NVIDIA.

Importancia para desarrolladores y empresas

La combinación de WFMs y flujos de trabajo de post entrenamiento permite una generación y curación de datos más escalables para IA física. Esto importa porque:

Ayuda a cerrar la brecha de datos al generar estados futuros diversos y físicamente plausibles que serían difíciles o costosos de capturar en el mundo real.
Acelera la generación y curación de datos sintéticos, permitiendo ciclos de desarrollo más rápidos para robótica, visión industrial de IA y percepción y planificación de VE.
Apoya una transferencia simulación a mundo real más robusta al ofrecer diversidad visual y dinámicas físicas amplias, mejorando la robustez de los modelos en entornos reales.
Ofrece una ruta estructurada para generar datos y refinar modelos mediante post entrenamiento, SFT y RL, con casos prácticos como robótica VQA y planificación de tareas reales.

Detalles técnicos o Implementación

Cosmos Predict

Entradas: prompts de texto, imágenes o videos.
Salida: cuadros futuros coherentes y físicamente plausibles.
Post entrenamiento incluye variantes como Single2MultiView para VE, generando secuencias multi vista sincronizadas a partir de un único video frontal.
Ejemplos adicionales: relucimiento de video mediante renderizado inverso para frames reluminados. Cosmos Transfer
Controles: mapas de segmentación, profundidad, mapas de contorno, escaneos LiDAR, puntos clave y mapas HD.
Propósito: generar simulaciones del mundo con gran diversidad visual a través de prompts de texto, aumentando conjuntos de datos sintéticos y mejorando la transferencia sim a real en robótica y VE.
Flujo de trabajo: generar un video RGB desde un prompt de texto y un video de condición con mapa HD. Cosmos Reason
VLM orientado al razonamiento para IA física, con comprensión del sentido común físico y toma de decisiones encarnadas.
Función: actúa como crítico de curación de datos durante SDG, comprendiendo secuencias de acciones y restricciones reales.
Entrenamiento en dos fases: SFT y RL; mejora el rendimiento para tareas específicas, como robovqa.
Ejemplo práctico: mejoras en robótica para preguntas y respuestas visuales. Notas técnicas
La integración de flujos de trabajo de post entrenamiento proporciona una cadena unificada desde generación, curación hasta refinamiento de modelos.
Estos flujos están diseñados para robótica y VE autónomos, con énfasis en diversificación de datos y mejor transferencia sim real mediante Cosmos Transfer y Reason.
NVIDIA Research presenta estos flujos como parte de su Robotics R D Digest y destaca eventos como SIGGRAPH 2025 y cursos gratuitos de Fundamentos de Robótica de NVIDIA para empezar.

Puntos clave

Los modelos de fundación mundial ofrecen un camino escalable para generar y curar datos sintéticos para IA física.
Cosmos Predict, Transfer y Reason cubren las necesidades clave: generación de datos, control de escenas y evaluación de calidad de datos.
El post entrenamiento permite adaptar modelos a aplicaciones específicas, con casos concretos en VE y robótica VQA.
El enfoque en dos etapas para Reason SFT y RL mejora el razonamiento encarnado y el rendimiento en tareas complejas.
Estos flujos facilitan ciclos de desarrollo más rápidos, mejor transferencia de sim a real y datos de entrenamiento más ricos y variados.

Preguntas Frecuentes

Referencias

https://developer.nvidia.com/blog/r2d2-boost-robot-training-with-world-foundation-models-and-workflows-from-nvidia-research

R²D²: Potenciar el entrenamiento de robots con Modelos de Fundamento Mundial y flujos de trabajo de NVIDIA Research

TL;DR

Contexto y antecedentes

Novedades

Importancia para desarrolladores y empresas

Detalles técnicos o Implementación

Puntos clave

Preguntas Frecuentes

Referencias

More news

NVIDIA HGX B200 reduce la intensidad de las emisiones de carbono incorporado

Shadow Leak muestra cómo los agentes de ChatGPT pueden exfiltrar datos de Gmail mediante inyección de prompts

Predecir Eventos Climáticos Extremos en Minutos sin Supercomputadora: Huge Ensembles (HENS)

Cómo reducir cuellos de botella KV Cache con NVIDIA Dynamo

Manual de los Grandmasters de Kaggle: 7 Técnicas de Modelado para Datos Tabulares

NVIDIA RAPIDS 25.08 Agrega Nuevo profiler para cuML, Mejoras en el motor GPU de Polars y Soporte Ampliado de Algoritmos