Maximizar el rendimiento robótico con Cosmos Reason de NVIDIA tras el entrenamiento

TL;DR

Cosmos Reason es un modelo de razonamiento visión- lenguaje (VLM) abierto y personalizable para IA física y robótica.
Convierte video en tokens mediante un codificador de visión y un traductor llamado proyector, y luego fusiona estos tokens con un prompt de texto para razonar.
El fine-tuning en tareas de IA física mejora el rendimiento base en más del 10%; el aprendizaje por refuerzo añade alrededor de un 5%, alcanzando una puntuación media de 65,7 en benchmarks de robótica y vehículos autónomos.
El modelo está optimizado para GPUs NVIDIA y puede implementarse de borde a nube; los checkpoints están en Hugging Face y los scripts de inferencia y post-entrenamiento en GitHub. Cita: NVIDIA resalta los detalles de Cosmos Reason y su despliegue en GTC 2025. Consulte la publicación original para el contexto completo: NVIDIA Cosmos Reason blog.

Contexto y antecedentes

Presentado por primera vez en NVIDIA GTC 2025, NVIDIA Cosmos Reason es un VLM de razonamiento abierto y completamente personalizable para IA física y robótica. El sistema permite a robots y agentes de visión razonar utilizando conocimiento previo, comprensión de la física y sentido común para entender y actuar en el mundo real. El proceso toma un video y un prompt de texto, convierte el video en tokens con un codificador de visión y un traductor llamado proyector, y luego alimenta los tokens al modelo central. El modelo utiliza una mezcla de módulos LLM y técnicas para pensar paso a paso y entregar respuestas detalladas y lógicas. Cosmos Reason se entrena con fine-tuning supervisado y aprendizaje por refuerzo para conectar la percepción multimodal con la toma de decisiones en el mundo real, usando razonamiento en cadena para entender la dinámica del mundo sin anotaciones humanas.

Novedades

Cosmos Reason representa una solución de pos-entrenamiento abierta y personalizable para robótica e IA física. El enfoque combina fine-tuning supervisado con aprendizaje por refuerzo para mejorar el rendimiento en tareas, con el fine-tuning aumentando el modelo base en más de 10% y el RL aportando ~5% adicionales, alcanzando una media de 65,7 en benchmarks de robótica y vehículos autónomos. Los desarrolladores pueden descargar los checkpoints desde Hugging Face y obtener scripts de inferencia y recursos de pos-entrenamiento en GitHub. El sistema admite vídeos en distintas resoluciones y frecuencias de cuadro junto con un prompt de texto que guía el razonamiento y las respuestas. Un modelo de upsampler de prompts también está disponible para mejorar las prompts. Cosmos Reason está optimizado para rendir al máximo en GPUs NVIDIA y se puede ejecutar en Docker o en el entorno del desarrollador. Para pipelines de visión, el VLM puede operar desde el edge hasta la nube, sobre GPUs como NVIDIA DGX Spark, NVIDIA RTX Pro 6000, NVIDIA AI H100 Tensor Core GPUs o NVIDIA Blackwell GB200 NVL72 en NVIDIA DGX Cloud. Para tutorials y casos prácticos, los desarrolladores pueden consultar la documentación de Cosmos y seguir las actualizaciones en los canales de NVIDIA.

Por qué importa (impacto para desarrolladores/empresas)

Para desarrolladores, Cosmos Reason ofrece un marco abierto y personalizable para avanzar la IA física al combinar percepción basada en video con razonamiento alineado con física y sentido común.
Para empresas, la disponibilidad de checkpoints en Hugging Face y scripts de inferencia en GitHub reduce la barrera para evaluar y desplegar VLMs sofisticados para robótica y sistemas autónomos. Las opciones de edge a nube permiten modelos operativos flexibles en instalaciones y flotas. La optimización para GPUs NVIDIA ayuda a maximizar la inversión en hardware.

Detalles técnicos o Implementación

Entrada: un video se convierte en tokens mediante un codificador de visión, complementado por un proyector para fusionar los tokens con el prompt de texto.
Núcleo: utiliza un mezcla de módulos LLM y técnicas para razonar paso a paso, soportando razonamiento en cadena para entender la dinámica mundial.
Entrenamiento: fine-tuning supervisado para mejorar capacidades y aprendizaje por refuerzo para vincular percepción con decisiones reales.
Ejemplos de tareas: el fine-tuning en escenarios de respuestas visuales robóticas puede reforzarse con datasets específicos como robovqa.
Despliegue: Docker o despliegue nativo; optimizado para GPUs NVIDIA.
Recursos: checkpoints en Hugging Face; scripts de inferencia y recursos de pos-entrenamiento en GitHub; upsampler de prompts disponible.

Puntos clave

Cosmos Reason combina percepción basada en video con razonamiento paso a paso para operar en entornos reales.
El pos-entrenamiento (SFT + RL) aporta ganancias medibles en benchmarks robóticos.
Diseñado para edge y nube, con acceso fácil a código y modelos, optimizado para hardware NVIDIA.
Ajustes y conjuntos de datos pueden adaptar el modelo a tareas robóticas como VQA.

Preguntas Frecuentes

- **P:** ¿Qué es NVIDIA Cosmos Reason y qué hace?

Es un VLM de razonamiento abierto y personalizable para IA física y robótica que razona con conocimiento previo, física y sentido común para actuar en el mundo real, procesando video y prompts de texto para producir respuestas con razonamiento paso a paso mediante módulos LLM. - **P:** ¿Cómo procesa Cosmos Reason el video y las invites de texto? **A:** El video se codifica en tokens con un codificador de visión y se traduce con un proyector. Los tokens de video se combinan con el prompt de texto y se envían al núcleo del modelo, que razona con múltiples componentes LLM. - **P:** ¿Qué mejoras de rendimiento se reportan? **A:** El pos-entrenamiento en tareas de IA física aumenta el rendimiento base en más de 10%, y el aprendizaje por refuerzo añade alrededor de 5%, alcanzando una media de 65,7 en benchmarks robóticos y de vehículos autónomos. - **P:** ¿Cómo pueden los desarrolladores acceder y desplegar Cosmos Reason? **A:** Los checkpoints están disponibles en Hugging Face y los scripts de inferencia y recursos de pos-entrenamiento en GitHub. Puede ejecutarse mediante Docker o en el entorno del desarrollador y está optimizado para GPUs NVIDIA.

Referencias

https://developer.nvidia.com/blog/maximize-robotics-performance-by-post-training-nvidia-cosmos-reason

Maximizar el rendimiento robótico con Cosmos Reason de NVIDIA tras el entrenamiento

TL;DR

Contexto y antecedentes

Novedades

Por qué importa (impacto para desarrolladores/empresas)

Detalles técnicos o Implementación

Puntos clave

Preguntas Frecuentes

Referencias

More news

NVIDIA HGX B200 reduce la intensidad de las emisiones de carbono incorporado

Predecir Eventos Climáticos Extremos en Minutos sin Supercomputadora: Huge Ensembles (HENS)

Cómo reducir cuellos de botella KV Cache con NVIDIA Dynamo

Microsoft transforma el sitio de Foxconn en el data center Fairwater AI, descrito como el más poderoso del mundo

Manual de los Grandmasters de Kaggle: 7 Técnicas de Modelado para Datos Tabulares

NVIDIA RAPIDS 25.08 Agrega Nuevo profiler para cuML, Mejoras en el motor GPU de Polars y Soporte Ampliado de Algoritmos