Skip to content
Las innovaciones de hardware de NVIDIA y las contribuciones de código abierto están dando forma a la IA
Source: developer.nvidia.com

Las innovaciones de hardware de NVIDIA y las contribuciones de código abierto están dando forma a la IA

Sources: https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai, https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai/, NVIDIA Dev Blog

TL;DR

  • La arquitectura de GPU Blackwell de NVIDIA combina núcleos Tensor de quinta generación con un formato de punto flotante de 4 bits (NVFP4) y NVLink-72 para ofrecer una potencia de cómputo masiva y alta precisión para cargas de IA exigentes.
  • Este hardware se acompaña de una pila de software de código abierto robusta: más de 1.000 herramientas en los repos de NVIDIA GitHub y 450+ modelos con 80+ conjuntos de datos en Hugging Face, abarcando desde la preparación de datos hasta el despliegue.
  • Modelos, conjuntos de datos y marcos de código abierto permiten escalar la IA de prototipo a producción dentro de un ecosistema completamente abierto, con pipelines de extremo a extremo que van desde RAPIDS hasta Dynamo.
  • Las ganancias de rendimiento en el mundo real incluyen hasta 4x de interactividad más rápida en GPT-OSS 120B en GPUs Blackwell B200 y hasta 2,5x de rendimiento por GPU en DeepSeek-R1 671B con GB200 NVL72; Nemotron alcanza hasta 6x de rendimiento frente a los mejores modelos abiertos competidores. NVIDIA Blog
  • El ecosistema abierto se refuerza con herramientas como TensorRT-LLM, CUTLASS y Dynamo, que permiten una inferencia escalable entre PyTorch, TensorRT-LLM, vLLM y SGLang. NVIDIA Blog

Contexto y antecedentes

Modelos de IA de código abierto como Cosmos, DeepSeek, Gemma, GPT-OSS, Llama, Nemotron, Phi, Qwen y muchos otros son descritos como fundamentos de la innovación en IA. Estos modelos democratizan IA al hacer disponibles pesos, arquitecturas y metodologías de entrenamiento para investigadores, startups y organizaciones a nivel mundial. Los desarrolladores pueden aprender y construir sobre técnicas como mixture-of-experts (MoE), nuevos kernels de atención y entrenamiento posterior para razonamiento, sin empezar desde cero. NVIDIA enmarca esta democratización como amplificada por el acceso generalizado tanto al hardware como al software de código abierto diseñado para acelerar IA, desde la nube y los centros de datos hasta dispositivos en el edge. NVIDIA Blog La arquitectura Blackwell se describe como un superchip de IA hecho a medida que integra Cores de Tensor de quinta generación y NVFP4 (4 bits FP) para ofrecer cómputo masivo con alta precisión. También incorpora NVLink‑72 para una comunicación GPU a GPU ultrarrápida y escalabilidad en configuraciones multi-GPU para cargas de IA exigentes. Los GPUs Blackwell incluyen también motores Transformer de segunda generación y NVLink Fusion para mejorar el rendimiento y la eficiencia. NVIDIA Blog Una idea central es optimizar todo el stack de software para obtener el mejor rendimiento en las cargas de IA actuales, democratizando el acceso a capacidades IA de vanguardia mediante herramientas, modelos y conjuntos de datos abiertos. NVIDIA señala más de 1.000 herramientas de código abierto disponibles a través de repositorios de GitHub de NVIDIA y colecciones Hugging Face con 450+ modelos y 80+ conjuntos de datos. El stack de software abierto abarca desde procesamiento de datos hasta marcos completos de desarrollo y despliegue de IA, con bibliotecas CUDA-X que aceleran ecosistemas enteros de herramientas conectadas. NVIDIA Blog RAPIDS acelera el procesamiento de datos y las ETL, permitiendo que las cargas de IA se ejecuten de principio a fin en GPUs y eliminen cuellos de botella de la CPU. El marco NeMo ofrece entrenamiento de extremo a extremo para modelos de lenguaje grandes (LLMs), modelos multimodales y de voz, escalable desde un solo GPU hasta clústeres de miles de nodos. PhysicsNeMo introduce ML informado por la física para incorporar leyes físicas en redes neuronales, acelerando gemelos digitales y simulaciones científicas. BioNeMo lleva IA generativa a las ciencias de la vida, con modelos preentrenados como microservicios NIM acelerados, además de herramientas para predicción de estructuras de proteínas, diseño molecular y descubrimiento de fármacos. Estos marcos aprovechan NCCL para la comunicación multi-GPU y multi-nodo. NVIDIA Blog NVIDIA también extiende PyTorch con capacidades generativas avanzadas mediante NeMo, PhysicsNeMo y BioNeMo, permitiendo a los desarrolladores construir, personalizar y desplegar poderosas aplicaciones de IA generativa más allá de los flujos de aprendizaje profundo estándar. Tras el entrenamiento, los modelos se sirven de forma eficiente con la pila de inferencia TensorRT (incluido TensorRT-LLM y TensorRT Model Optimizer). TensorRT-LLM aprovecha las instrucciones de Blackwell y el formato FP4 para ampliar aún más el rendimiento de inferencia en grandes modelos. Para desarrolladores que crean kernels personalizados, CUTLASS ofrece plantillas CUDA C++ para facilitar la escritura de kernels de alto rendimiento para GEMM, columna vertebral del aprendizaje profundo. NVIDIA Dynamo facilita el servicio de inferencia a escala, con NIXL para movimiento de datos de alto rendimiento y baja latencia en entornos de inferencia IA. Los resultados de Dynamo 0.4 con TensorRT-LLM muestran mejoras de interactividad y throughput para grandes modelos: hasta 4x más interactividad para el GPT-OSS 120B en GPUs Blackwell B200, y 2.5x de throughput por GPU en DeepSeek-R1 671B con GB200 NVL72. NVIDIA Blog

¿Qué hay de nuevo?

NVIDIA subraya una aproximación de código abierto que combina hardware de punta con un stack de software amplio. La familia Blackwell introduce precisión NVFP4 y enlaces de interconexión de próxima generación (NVLink-72), junto con motores Transformer de segunda generación y NVLink Fusion para habilitar cargas de IA escalables y eficientes. El software complementa modelos abiertos y conjuntos de datos en Hugging Face, con cientos de modelos y miles de conjuntos de datos distribuidos bajo licencias permisivas, incluida la NVIDIA Open Model License. Además, Cosmos ofrece modelos generativos y herramientas para generación y comprensión de mundos, y las SDKs Omniverse y las bibliotecas OpenUSD permiten simulaciones en tiempo real para robótica y simulaciones industriales. NVIDIA Blog El pipeline ahora empieza con RAPIDS para procesamiento de datos y análisis, seguido del entrenamiento de modelos con NeMo, PhysicsNeMo y BioNeMo, escalando desde una GPU hasta clusters de miles de nodos. Los modelos y datasets abiertos están disponibles en Hugging Face, con licencias abiertas para fomentar la adopción y la colaboración. Cosmos, orientado a IA física, complementa los SDKs Omniverse y las bibliotecas OpenUSD para pipelines de simulación y entrenamiento en entornos reales. NVIDIA Blog NVIDIA también destaca sus contribuciones a proyectos y fundaciones como Linux Kernel, Python, PyTorch, Kubernetes, JAX y ROS, además de su apoyo a la Linux Foundation, PyTorch Foundation, Python Software Foundation, Cloud Native Computing Foundation, Open Source Robotics Foundation y The Alliance for OpenUSD. NVIDIA Blog

¿Por qué importa para desarrolladores/empresas?

  • Para desarrolladores, el ecosistema ofrece una pila de software abierta y en rápida evolución con miles de herramientas y cientos de modelos preentrenados para experimentar y personalizar, reduciendo el tiempo de prototipado en hardware de punta como Blackwell. NVIDIA Blog
  • Para empresas, la capacidad de escalar la inferencia y el razonamiento con Dynamo y TensorRT-LLM, junto con una comunicación entre GPUs eficiente (NCCL), posibilita despliegues de IA en producción a gran escala. Se citan mejoras sustanciales de interactividad y throughput en grandes modelos. NVIDIA Blog
  • Para investigadores, PhysicsNeMo y BioNeMo proporcionan ML guiado por física y capacidades de IA en biociencias, acelerando simulaciones, diseño molecular y descubrimientos biológicos dentro de un marco abierto. NVIDIA Blog

Detalles técnicos o Implementación

  • Fundamentos de hardware: arquitectura Blackwell con Cores de Tensor de quinta generación, NVFP4 (4-bit FP), NVLink-72 y Transformer Engines de segunda generación, además de NVLink Fusion para escalabilidad y eficiencia. NVIDIA Blog
  • Ecosistema open source: más de 1.000 herramientas en los repos NVIDIA GitHub y 450+ modelos con 80+ conjuntos de datos en Hugging Face. RAPIDS acelera procesamiento de datos y ETL; NeMo, PhysicsNeMo y BioNeMo cubren entrenamiento y multi-framework, con soporte para PyTorch, Megatron y Hugging Face. NVIDIA Blog
  • Inferencia y despliegue: TensorRT con TensorRT-LLM y TensorRT Model Optimizer; CUTLASS para kernels GEMM; Dynamo para servicio de inferencia a escala con NIXL para movimiento de datos de alto rendimiento. Resultados reales muestran mejoras de interactividad y throughput para grandes modelos. NVIDIA Blog
  • Modelos abiertos y simulación: Cosmos (Predict, Transfer, Reason) con tokenizers y pipelines; Omniverse y OpenUSD para simulaciones físicas y datos. NVIDIA Blog

Conclusiones clave

  • El ecosistema IA de NVIDIA es una orquestación de innovaciones de hardware y un stack open source rico (RAPIDS, NeMo, Cosmos, Dynamo, TensorRT, CUTLASS, etc.).
  • Los modelos y datasets abiertos, bajo licencias permisivas, aceleran la colaboración y el despliegue a gran escala.
  • Pipelines end-to-end de datos a entrenamiento y servicio están diseñados para operar completamente dentro de un ecosistema abierto sobre el hardware Blackwell.
  • Los resultados de rendimiento prácticos demuestran el valor de este enfoque: interactividad más rápida y mayor throughput en grandes modelos con Dynamo y TensorRT-LLM, junto con una mayor eficiencia por GPU gracias a NVFP4. NVIDIA Blog

FAQ

  • - **Q : ¿Qué hace único a Blackwell para cargas de IA?**

    Combina núcleos Tensor de 5a generación, NVFP4 de 4 bits FP, NVLink‑72 para interconexión ultrarrápida entre GPUs y Transformer Engines de 2a generación con NVLink Fusion para cargas escalables y eficientes. [NVIDIA Blog](https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai/) - **Q : ¿Qué papel juega Dynamo en la stack IA?** **A :** Dynamo es una plataforma de servicio de inferencia independiente del framework, diseñada para escalar el razonamiento de IA desagregando las etapas de inferencia y con scheduling inteligente orientado a LLM; soporta PyTorch, TensorRT-LLM, vLLM y SGLang. [NVIDIA Blog](https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai/) - **Q : ¿Dónde pueden los desarrolladores acceder a herramientas y modelos abiertos?** **A :** A través de los repos GitHub de NVIDIA y las colecciones Hugging Face, que alojan miles de herramientas, modelos y datasets con licencias abiertas. [NVIDIA Blog](https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai/) - **Q : ¿Qué es Cosmos y por qué es importante?** **A :** Cosmos es una suite de modelos generativos y herramientas para la generación y comprensión de mundos, enfocada en el desarrollo de IA física y aplicaciones de simulación. [NVIDIA Blog](https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai/)

Referencias

More news