R²D²: Impulsione o Treinamento de Robôs com World Foundation Models e Workflows da NVIDIA Research

TL;DR

World Foundation Models (WFMs) simulam, prevêem e raciocinam sobre estados futuros do mundo para aumentar dados para IA física, como robótica e veículos autônomos. A NVIDIA descreve o Cosmos como uma plataforma para desenvolvimento de WFM para IA física.
Cosmos Predict gera estados futuros do mundo como vídeos a partir de prompts de texto, imagem ou vídeo e pode ser pós-treinado para aplicações de robótica e AV.
Cosmos Transfer permite transferências de estilo fotorrealistas a partir de entradas 2D e prompts textuais para diversificar dados sintéticos e melhorar a transferência sim-to-real.
Cosmos Reason é um modelo VLM de raciocínio que pode curar e anotar dados gerados e ser pós-treinado para funcionar como um modelo VLA de robô, atuando como crítico durante a SDG.
O post destaca fluxos de trabalho práticos, exemplos de pós-treinamento e eventos de pesquisa da NVIDIA, como o SIGGRAPH 2025, orientando desenvolvedores para dados mais ricos em tarefas de IA física.

Contexto e antecedentes

O campo da IA física—que abrange robótica, automação e veículos autônomos—enfrenta um desafio persistente: adquirir dados ricos, diversos e fisicamente consistentes em escala. A coleta e rotulagem manuais são lentas, caras e muitas vezes insuficientes para cobrir cenários do mundo real que esses sistemas precisam enfrentar. Em resposta, a NVIDIA Research apresenta World Foundation Models (WFMs) como uma família de modelos generativos projetados para simular, prever e raciocinar sobre estados futuros de ambientes complexos. Os WFMs funcionam como base para geração de dados sintéticos (SDG) e curadoria de dados, permitindo que pesquisadores e engenheiros criem pipelines de treinamento mais robustos. A NVIDIA posiciona o Cosmos como uma plataforma para desenvolver WFMs especialmente adaptados a aplicações de IA física, incluindo robótica e veículos autônomos. A família Cosmos compreende três tipos de modelos pós-treináveis: Cosmos Predict, Cosmos Transfer e Cosmos Reason. Cada tipo oferece capacidades distintas que podem ser ajustadas para tarefas e necessidades específicas, proporcionando ciclos de desenvolvimento mais rápidos e maior realismo e utilidade dos dados sintéticos. Cosmos Predict, Cosmos Transfer e Cosmos Reason trabalham juntos para formar fluxos de trabalho de ponta a ponta para geração de dados, aumento e curadoria. Esta edição do NVIDIA Robotics Research and Development Digest (R 2 D 2) analisa como esses modelos funcionam e como fluxos de trabalho que os utilizam podem melhorar SDG e a preparação de dados para IA física.

O que há de novo

Os modelos Cosmos Predict são projetados para gerar sequências de estados futuros do mundo. Eles podem receber entradas na forma de texto, imagens ou vídeos e produzir quadros futuros temporalmente coerentes e fisicamente plausíveis. O pós-treinamento de um modelo Cosmos Predict para aplicações específicas—como robótica ou condução autônoma—pode acelerar significativamente a geração de dados sintéticos para tarefas complexas. Um exemplo de pós-treinamento é o Single2MultiView para veículos autônomos (AV), uma versão do Cosmos Predict que produz várias perspectivas de câmera consistentes a partir de um vídeo frontal de direção. Isso produz material de vigilância multicâmera sincronizado, valioso para o desenvolvimento de AV. Outros exemplos de pós-treinamento incluem o GR00T em dados GR1, uma demonstração de fluxo de trabalho que mostra como um vídeo pode ser aprimorado por meio de reiluminação de iluminação usando um renderizador inverso. Esse tipo de recurso aumenta a diversidade visual de dados sintéticos e ajuda os modelos a se generalizarem a diferentes condições de iluminação encontradas no mundo real. Cosmos Transfer foca na criação de simulações de mundo a partir de várias entradas de controle, como mapas de segmentação, profundidade, mapas de borda, LiDAR, pontos-chave e mapas HD. Ao combinar essas modalidades com prompts de texto, os desenvolvedores podem guiar a composição da cena enquanto introduzem ampla variedade visual. O objetivo é ampliar conjuntos de dados sintéticos com grande diversidade visual e melhorar a transferência de simulação para o mundo real em tarefas de robótica e direção autônoma. Um fluxo de trabalho representativo mostra como um vídeo RGB pode ser gerado a partir de um prompt de texto e de um vídeo de condição de HD Map, permitindo pipelines SDG flexíveis e escaláveis. Cosmos Reason é o componente de raciocínio do conjunto Cosmos. Como um modelo de base de raciocínio voltado para IA física, o Cosmos Reason compreende senso comum físico e pode gerar decisões incorporadas apropriadas por meio de raciocínio em cadeia longa. Essa capacidade é útil como crítico de dados durante a SDG: ele entende sequências de ações e restrições do mundo real para curar dados de treinamento de maior qualidade. O modelo é treinado em duas etapas—ajuste fino supervisionado (SFT) e aprendizado por reforço (RL). O treinamento SFT pode melhorar o desempenho em tarefas específicas. Por exemplo, o treinamento com o conjunto robô-vQA pode melhorar o desempenho em casos de perguntas sobre visão robótica. Um comando de exemplo para iniciar o treinamento SFT ilustra como os pesquisadores costumam adaptar o modelo a dados e tarefas específicos. Juntas, essas peças possibilitam uma abordagem de ponta a ponta para geração, curadoria e treinamento de dados alinhados com ambientes físicos. A NVIDIA destaca que esses fluxos de trabalho são projetados para IA física (robótica e automação) e IA industrial de visão, com foco na consciência espacial, planejamento de trajetória e execução de tarefas complexas.

Por que isso importa (impacto para desenvolvedores/empresas)

Provisionamento de dados acelerado: gerando quadros futuros, cenas diversas e variações fotorrealistas, Cosmos WFMs reduzem a dependência de coleta manual de dados e rotulagem, acelerando os ciclos de treinamento para robótica e AV.
Melhoria na transferência sim-para-real: variar iluminação, perspectiva e fatores ambientais através do Cosmos Predict e Transfer pode reduzir a lacuna entre dados sintéticos e implantação no mundo real, aumentando a generalização.
Curadoria de dados estruturada: o Cosmos Reason atua como crítico para curar e anotar dados gerados, melhorando a qualidade e a relevância dos conjuntos para tarefas de IA com corpo embebido.
Fluxos de trabalho de pós-treinamento flexíveis: os exemplos de pós-treinamento (Single2MultiView, relighting de vídeos e outras demonstrações) mostram caminhos práticos para adaptar WFMs a ambientes específicos e necessidades de tarefas sem recomeçar o treinamento do zero.
Ferramentas ricas para desenvolvedores e empresas: a plataforma Cosmos suporta entradas variadas (texto, imagens 2D, pistas 3D) e saídas (vídeos, dados anotados, dados prontos para VLA), viabilizando pipelines SDG escaláveis para robótica, automação e IA de visão industrial.
Engajamento com a comunidade de pesquisa: a NVIDIA aponta para participação contínua no ecossistema, com anúncios e recursos sobre eventos de pesquisa como SIGGRAPH 2025, sinalizando fluxos de trabalho em evolução e oportunidades de colaboração para pesquisadores e profissionais. Para desenvolvedores, empresas e equipes de pesquisa, esses fluxos de trabalho fornecem um caminho estruturado para aproveitar modelos de fundação de mundo na criação de sistemas de IA física de forma mais eficiente, com maior diversidade de dados e qualidade.

Detalhes técnicos ou Implementação

Visão geral dos tipos de modelos e capacidades | Tipo de modelo | Capacidade principal | Entradas e saídas-chave | Casos de uso típicos |---|---|---|---| | Cosmos Predict | Gera estados futuros do mundo como vídeos a partir de prompts de texto, imagem ou vídeo | Prompts de texto, imagens ou vídeos como entrada; saída são quadros futuros coerentes | Pós-treinamento para SDG em robótica e tarefas de AV; exemplo: Single2MultiView para footage multicâmera de AV; GR00T para cenários de iluminação |Cosmos Transfer | Cria simulações do mundo a partir de várias entradas de controle e prompts de texto | Mapas de segmentação, profundidade, mapas de borda, LiDAR, pontos-chave, mapas HD; prompts de texto | Aumentar variedade visual de dados sintéticos; melhorar a transferência sim-to-real |Cosmos Reason | Módulo de raciocínio com VLM que curadoria e anota dados gerados; pode pós-treinar como modelo VLA de robô | Treinado com SFT e RL; pode usar conjuntos de dados robóticos VQA | Curadoria de dados, tomada de decisão incorporada, e como crítico de qualidade de dados em SDG | Notas:

Cosmos Predict pode ser pós-treinado para robótica e veículos autônomos para gerar quadros futuros coerentes e fisicamente plausíveis.
Cosmos Transfer permite controle de cena por meio de várias modalidades e prompts de texto, enriquecendo a variação visual.
Cosmos Reason oferece raciocínio de longo alcance para avaliar sequências de ações e restrições, melhorando a qualidade de dados para tarefas de IA embutida.
Os exemplos de pós-treinamento destacados incluem Single2MultiView, relighting de vídeo e melhorias baseadas em SFT para VQA de robótica.
Todas as descrições de modelos aparecem dentro do framework Cosmos WFMs da NVIDIA como parte do digest(R2D2) e fluxos de trabalho associados.

Pontos-chave

WFMs abrem um caminho escalável para geração e curadoria de dados sintéticos para IA física, simulando, prevendo e raciocinando sobre estados do mundo.
A família Cosmos inclui três WFMs pós-treináveis—Predict, Transfer e Reason—cada um abordando aspectos diferentes de geração de dados, variação de cenas e qualidade de dados.
O pós-treinamento permite adaptar os modelos a ambientes e tarefas específicas, sem reconstruir todo o modelo.
Fluxos de trabalho práticos (por exemplo, Single2MultiView, geração de vídeo a partir de HD maps) demonstram como esses modelos podem ser integrados a pipelines SDG existentes.
Cosmos Reason adiciona uma camada crítica de avaliação, atuando como crítico de dados para melhorar a qualidade de tarefas de IA embutida.

FAQ

Quais são os três WFMs Cosmos e quais são seus papéis?

Cosmos Predict gera estados futuros do mundo como vídeos; Cosmos Transfer permite controle de cena multi-modal e transferências de estilo; Cosmos Reason oferece raciocínio e pode ser pós-treinado como modelo VLA de robô.
Como o pós-treinamento beneficia robótica e desenvolvimento de AV?

O pós-treinamento ajusta os modelos a ambientes e tarefas específicas, permitindo SDG mais direcionada, melhor generalização e pipelines de dados mais eficientes sem recomeçar o treinamento.
uais fluxos de trabalho são apresentados?

Exemplos incluem Single2MultiView para AV, GR00T com reiluminação de vídeo e geração de vídeo condicionada por HD-map usando Cosmos Transfer.
Como o Cosmos Reason é usado na curadoria de dados?

Cosmos Reason entende senso comum físico e restrições do mundo real para curar e anotar dados gerados, melhorando o desempenho em tarefas com corpo incorporado por meio de SFT e RL.

Referências

NVIDIA R²D² blog post

R²D²: Impulsione o Treinamento de Robôs com World Foundation Models e Workflows da NVIDIA Research

TL;DR

Contexto e antecedentes

O que há de novo

Por que isso importa (impacto para desenvolvedores/empresas)

Detalhes técnicos ou Implementação

Pontos-chave

FAQ

Referências

More news

NVIDIA HGX B200 reduz a Intensidade de Emissões de Carbono Incorporado

Shadow Leak mostra como agentes do ChatGPT podem exfiltrar dados do Gmail via injeção de prompt

Prever Eventos Climáticos Extremos em Minutos sem Supercomputador com Huge Ensembles (HENS)

Playbook dos Grandmasters do Kaggle: 7 Técnicas de Modelagem Testadas para Dados Tabulares

Como reduzir gargalos do KV Cache com NVIDIA Dynamo

NVIDIA RAPIDS 25.08 Adiciona Novo Profiler para cuML, Melhorias no Motor GPU Polars e Suporte Ampliado de Algoritmos