Skip to content
Escalando la Inferencia de IA con NVIDIA NVLink Fusion: fibra de escala para CPUs y XPUs personalizadas
Source: developer.nvidia.com

Escalando la Inferencia de IA con NVIDIA NVLink Fusion: fibra de escala para CPUs y XPUs personalizadas

Sources: https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion

TL;DR

  • El crecimiento de la complejidad de IA ha llevado los conteos de parámetros de millones a billones, exigiendo clústeres de GPUs y paralelización a gran escala para la inferencia.
  • NVLink Fusion ofrece acceso a tecnologías scale-up de NVLink ya probadas en producción, permitiendo la integración de CPUs personalizadas y XPUs en la red NVLink a través de soluciones MGX modulares y interfaces abiertas.
  • La quinta generación de NVLink (2024) admite 72 GPUs con comunicación all-to-all a 1.800 GB/s, con aproximadamente 130 TB/s de ancho de banda agregado, unas 800 veces más que la primera generación.
  • NCCL, la biblioteca de comunicación de NVIDIA, sigue siendo central para la comunicación GPU-GPU en topologías scale-up y scale-out, integrada en los principales frameworks.
  • El ecosistema NVLink Fusion incluye una solución de rack MGX lista para producción, puentes a UCIe para XPUs y software CUDA-X para acelerar cargas de IA en pilas de hardware personalizadas.

Contexto y antecedentes

El crecimiento acelerado de IA ha llevado a que los modelos sean mucho más grandes, requiriendo recursos de cómputo sin precedentes. Las cargas de inferencia dependen ahora de la paralelización a gran escala, incluyendo paralelismo por tensores, por canal y por expertos (Mixture-of-Experts), para entregar el rendimiento necesario. Esta evolución impulsa a los sistemas de IA a estructuras de cómputo y memoria a escala, permitiendo que las GPUs operen como un dominio único de cómputo y memoria. NVIDIA introdujo NVLink en 2016 para superar las limitaciones del PCIe en HPC y cargas de IA, conectando GPUs de manera más rápida y creando un espacio de memoria unificado. En 2018, NVLink Switch logró 300 GB/s de ancho de banda all-to-all en una topología de 8 GPUs, allanando el camino para fabrics de escala en la era del cómputo multi-GPU. SHARP, introducido con la tercera generación de NVLink, mejoró la reducción de ancho de banda y la latencia de operaciones colectivas. En 2024, la quinta generación de NVLink ofrece all-to-all entre 72 GPUs a 1.800 GB/s, con 130 TB/s de ancho de banda agregado, un incremento de ~800x respecto a la primera generación. NVIDIA continúa impulsando estos avances anuales para satisfacer las crecientes necesidades de cómputo IA. La NCCL es la biblioteca abierta clave para acelerar la comunicación GPU-GPU y soporta topologías scale-up y scale-out, con reconocimiento de topología y optimizaciones. NCCL está integrada en los frameworks de aprendizaje profundo más utilizados, beneficiándose de una década de desarrollo y despliegue en producción.

Qué hay de nuevo

NVLink Fusion expande el acceso a tecnologías de escala NVLink ya probadas, dando a los hyperscalers caminos modulares y abiertos para integrar CPUs y XPUs en el fabric NVLink vía soluciones MGX y interfaces abiertas como UCIe. Características clave:

  • Solución de rack MGX modular basada en Open Compute Project (OCP), capaz de integrarse con NIC, DPU o switches a escala, con amplia compatibilidad y despliegue rápido.
  • Interfaces para XPUs mediante IP UCIe, con un chip puente de NVIDIA para UCIe a NVLink, preservando alto rendimiento y facilitando la integración. UCIe es un estándar abierto que ofrece flexibilidad al elegir opciones de XPUs presentes y futuras.
  • Para configuraciones de CPUs personalizadas, la IP NVLink-C2C conecta GPUs NVIDIA a CPUs no NVIDIA, permitiendo movimientos de datos eficientes en entornos mixtos y acceso al ecosistema CUDA-X.
  • Un ecosistema sólido de socios para silicio personalizado, CPUs e IPs, apoyando un diseño rápido y avances continuos.
  • Sistemas de rack listos para producción, como GB200 NVL72 y GB300 NVL72, que demuestran la madurez de NVLink Fusion en implementaciones reales. NVLink Fusion ofrece a los hyperscalers una vía para aprovechar la familia NVLink scale-up manteniendo la flexibilidad para adaptar CPUs, XPUs o configuraciones mixtas a sus cargas de inferencia modernas.

Por qué importa (impacto para desarrolladores/empresas)

La inferencia de IA hoy depende tanto de la interconexión de alto rendimiento como de los entornos de software. Interconexiones de gran ancho de banda, integración flexible de CPU/XPU y el ecosistema CUDA-X permiten mayor rendimiento por vatio y menor latencia en grandes pools de GPUs. Al permitir que CPUs y XPUs participen en el fabric NVLink, las compañías pueden adaptar recursos de cómputo y memoria a las necesidades de los modelos modernos, incluyendo Mixtures-of-Experts y escalamiento en tiempo real, manteniendo compatibilidad con flujos de trabajo basados en CUDA. La configuración de rack de 72 GPUs con 1.800 GB/s all-to-all y 130 TB/s de ancho de banda agregado, junto con arquitecturas de rack de alta densidad y enfriamiento avanzado, soporta una amplia gama de escenarios de inferencia. Para desarrolladores, esto significa servir modelos con mayor eficiencia, mejores latencias y mayor escalabilidad de cargas de inferencia con menos cuellos de botella en la interconexión. Para operadores de data centers, NVLink Fusion ofrece un camino hacia fabrics de escala rack compatibles con estándares abiertos MGX y cadenas de suministro establecidas, lo que podría reducir el tiempo de implementación y acelerar el time-to-market de stacks de IA personalizados.

Detalles técnicos o Implementación

Hardware e interconexiones

NVLink Fusion expone tecnologías centrales de escala: NVLink SERDES, chiplets NVLink, switches NVLink y todo el stack de rack (spine, cables de cobre, alimentación y enfriamiento avanzado). Este conjunto de hardware está diseñado para operar como un dominio unificado de memoria y cómputo, para cargas de inferencia a gran escala con baja latencia entre GPUs.

Interfaces para CPUs y XPUs

Para XPUs personalizados, NVLink Fusion utiliza IP UCIe para conectar XPUs al NVLink. NVIDIA proporciona un chip puente de UCIe a NVLink para mantener el rendimiento y facilitar la integración, manteniendo el acceso a las capacidades NVLink. UCIe ofrece una norma abierta que da flexibilidad para elegir opciones de XPU en plataformas actuales y futuras. Para CPUs, la IP NVLink-C2C conecta GPUs NVIDIA con CPUs no NVIDIA, permitiendo movimientos eficientes de datos y acceso al ecosistema CUDA-X.

Software y bibliotecas

NCCL sigue siendo el pilar de software para comunicaciones GPU-GPU, con alto rendimiento en topologías scale-up y scale-out, reconocimiento de topología y optimizaciones. NCCL está integrado en los frameworks de IA más importantes, aportando una pila de software madura para inferencia IA a gran escala.

Arquitectura de rack y ecosistema

NVLink Fusion está diseñado como una solución MGX de rack lista para producción, capaz de interconectar NIC, DPU o switches a escala, respaldada por un ecosistema robusto de socios y la apertura de diseño. La arquitectura de rack de alta densidad y el soporte de cadena de suministro están orientados a despliegues de producción.

Despliegues en producción y hoja de ruta

NVIDIA ha operado tecnologías NVLink scale-up durante casi una década, con avances a través de cinco generaciones. La generación 2024 alcanza 1.800 GB/s all-to-all entre 72 GPUs y 130 TB/s de ancho de banda agregado, marcando un salto significativo. El objetivo es alinear hardware y software para las crecientes exigencias de cómputo IA.

Puntos clave

  • NVLink Fusion abre acceso a tecnologías scale-up NVLink para hyperscalers, permitiendo integrar CPUs personalizadas y XPUs en el fabric NVLink.
  • Soluciones MGX de rack modulares con interfaces UCIe para XPUs y NVLink-C2C para CPUs, conectando a CUDA-X.
  • Topología 72 GPUs con 1.800 GB/s all-to-all y 130 TB/s de ancho de banda agregado, soportando diversos escenarios de inferencia.
  • NCCL continúa siendo el pilar de software para comunicaciones GPU-GPU en arquitecturas scale-up y scale-out.
  • Sistemas de rack listos para producción (GB200 NVL72 y GB300 NVL72) y un ecosistema amplio para acelerar el time-to-market de stacks de IA personalizados.

FAQ

Referencias

More news