NVLink Fusion: Escalando la Inferencia de IA con NVLink para CPUs/XPUs Personalizados
Sources: https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion, https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion/, NVIDIA Dev Blog
Visión general
El crecimiento exponencial de la complejidad de los modelos IA, de millones a trillones de parámetros, genera necesidades informáticas sin precedentes que suelen requerir clústeres de GPUs. Las cargas de inferencia utilizan cada vez más arquitecturas MoE (experts mixtos) y escalado en tiempo de prueba, lo que aumenta la demanda de cómputo y memoria. Para satisfacer esta demanda, la industria ha acudido a la paralelización a gran escala y a fabrics de memoria con semántica de memoria que permiten que múltiples GPUs operen como una única piscina de cómputo y memoria. NVLink Fusion amplía las tecnologías de fabric scale-up de NVLink a despliegues programables a nivel de rack, ofreciendo a los hyperscaleers y a las empresas un camino para la inferencia de IA a gran escala con diseño conjunto de hardware y software. NVLink se introdujo en 2016 para superar las limitaciones del PCIe y permitir una comunicación GPU-GPU más rápida y una memoria unificada. En 2018, NVLink Switch entregó 300 GB/s de ancho de banda all-to-all en una topología de 8 GPUs, abriendo el camino para fabrics de scale-up. SHARP, la tercera generación, optimizó latencias de operaciones y escalas, y la quinta generación de NVLink, lanzada en 2024, soporta hasta 72 GPUs con 1,800 GB/s de comunicación all-to-all y aproximadamente 130 TB/s de ancho de banda agregado, unas 800 veces la primera generación. NVIDIA continúa impulsando nuevas generaciones anualmente para acompañar el crecimiento de los modelos IA. El rendimiento de NVLink depende del hardware y de bibliotecas como NCCL (NVIDIA Collective Communication Library), que acelera la comunicación GPU-GPU, es de código abierto y se integra a los principales marcos a través de CUDA-X. NVLink Fusion amplía el acceso a este fabric scale-up al permitir rutas hacia silicio personalizado (CPUs y XPUs) para integrarse con el fabric NVLink scale-up y la arquitectura en rack para infraestructuras de IA semi-personalizadas enfocadas en la inferencia. Soporta estándares abiertos y una arquitectura modular de rack MGX de la Open Compute Project (OCP), permitiendo la integración con NICs, DPUs o switches de escala y configuraciones personalizadas de CPU o XPU a través de IP UCIe o IP NVLink-C2C. El resultado es un ecosistema flexible, listo para producción, diseñado para escalar la inferencia de IA en dominios grandes manteniendo acceso a memoria coherente y comunicaciones de alto rendimiento. Para la oferta en rack, NVIDIA señala sistemas listos para producción (por ejemplo, GB200 NVL72 y GB300 NVL72) y un ecosistema orientado a la entrada rápida al mercado. El enfoque de NVLink Fusion se apoya en un ecosistema de silicio robusto, con socios para silicio personalizado, CPUs e IP, además de una solución en rack preparada para el centro de datos con una red de espina dorsal de alta densidad, cableado de cobre, enfriamiento avanzado y una cadena de suministro lista. En resumen, NVLink Fusion agrupa la tecnología NVLink scale-up con un amplio ecosistema para permitir integraciones personalizadas y a gran escala para la inferencia de IA. Referencia: visión general de NVLink y NVLink Fusion para escalar la inferencia de IA: https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nVIDIA-nvlink-and-nvlink-fusion/.
Características clave
- NVLink Fusion amplía las capacidades scale-up de NVLink hacia rutas de silicio personalizados (CPU y XPU) a través de IP UCIe y chiplets NVLink, conectando CPU/XPUs con un fabric scale-up de NVLink.
- Compatibilidad con el Open Compute Project (OCP) MGX para racks modulares listos para producción, que pueden integrarse con NICs, DPUs o switches de escala.
- Integración basada en IP UCIe para XPUs personalizados y IP NVLink-C2C para conectividad CPU-GPU con memoria coherente de alto rendimiento.
- Infraestructura hardware que incluye NVLink SERDES, chiplets NVLink, NVLink Switches, además de spine de rack, cableado de cobre, enfriamiento y alimentación para despliegues de alta densidad.
- Topología de 72 GPUs con hasta 1,800 GB/s de comunicación all-to-all y alrededor de 130 TB/s de ancho de banda agregado, con mejoras sustanciales frente a generaciones anteriores.
- NCCL sigue siendo el pilar para alcanzar tasas cercanas a teóricas entre GPUs, con reconocimiento automático de topología e integración con bibliotecas CUDA-X.
- El sistema soporta un dominio computacional unificado con paralelismo en tensors, pipelines y expertos en grandes dominios de GPUs.
- Un ecosistema de silicio amplio con socios para silicio personalizado, CPUs e IP, asegurando flexibilidad de diseño y entrada rápida al mercado.
- Enfoque orientado a la producción, con soluciones en racks scale-up para inferencia IA en entornos empresariales y de gran escala.
Casos de uso comunes
- Inferencia de IA a gran escala para modelos con un gran número de parámetros, incluyendo arquitecturas MoE y escenarios de escalabilidad durante la inferencia.
- Despliegues hyperscale que requieren escalas de cientos o miles de GPUs donde la coherencia de memoria y las comunicaciones de gran ancho de banda son críticas.
- Inferencia de LLM y otros workloads basados en transformadores donde la compensación entre rendimiento y latencia se gestiona con fabrics NVLink a gran escala.
- Pipelines de IA personalizadas que requieren configuraciones muy acopladas de CPU/XPU para lograr baja latencia en una familia de modelos.
- Escenarios donde un único pool de cómputo y memoria simplifica la orquestación entre miles de elementos de cómputo.
Setup & instalación
La fuente no proporciona detalles de instalación. El artículo describe la arquitectura y el ecosistema, no un esquema de implementación paso a paso. Consulta el artículo original para contexto, capacidades y componentes del ecosistema: https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nVIDIA-nvlink-and-nvlink-fusion/.
# Setup e instalación no proporcionados en la fuente.
# Este bloque se mantiene intencionalmente sin comandos ejecutables.
Quick start
La fuente describe capacidades y patrones arquitectónicos, no un guía rápida ejecutable. Un enfoque práctico mínimo sería alinear un rack NVLink Fusion con una estrategia CPU/XPU para evaluar cómo la integración semi-personalizada puede sostener la inferencia de IA a gran escala. Sin embargo, no se proporcionan pasos ejecutables ni código de muestra en el artículo. Para contexto sobre capacidades, metas de rendimiento y componentes del ecosistema, consulte el artículo original: https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion/.
Ventajas y desventajas
- Ventajas
- Interconexiones de escala con ancho de banda all-to-all extremadamente alto (hasta 1,800 GB/s) y rendimiento agregado cercano a 130 TB/s.
- Capacidad de integrar CPUs y XPUs personalizados dentro del fabric scale-up de NVLink, permitiendo despliegues IA semi-personalizados.
- Estándares abiertos y compatibilidad con racks MGX de OCP, acelerando la adopción en producción con un ecosistema amplio.
- Soporte sólido de software vía NCCL, con reconocimiento automático de topología e integración en bibliotecas CUDA-X.
- Dominio informático unificado con soporte para paralelismo tensor, pipeline y expert en grandes dominios de GPUs.
- Desventajas
- El documento no lista explícitamente desventajas; la evaluación debe hacerse en función del contexto de implementación.
- La implementación requiere una solución de rack especializada, lo que puede implicar mayor esfuerzo de integración.
- No todos los workloads requieren una solución de scale-up tan robusta; el valor depende del tamaño del modelo, la estrategia de paralelismo y las metas de latencia.
Alternativas (breve comparación)
| Alternativa de interconexión | Diferencia frente a NVLink Fusion | Notas de la fuente |---|---|---| | Interconexiones PCIe | NVLink fue desarrollado para superar limitaciones de PCIe con mayor ancho de banda y memoria unificada | PCIe era la norma anterior; NVLink ofrece mayor ancho de banda y coherencia de memoria entre GPUs |NVLink scale-up sin Fusion | Fabric de scale-up NVLink tradicionales entre GPUs y switches NVLink | Fusion amplía el acceso a tecnologías scale-up mediante racks modulares y interfaces CPU/XPU |NVLink-C2C para CPUs | Conectividad CPU-GPU a través de IP NVLink-C2C | Útil para rutas CPU-GPU optimizadas en configuraciones semi-personalizadas |
Precios o licencia
No especificado en la fuente. El artículo discute capacidades tecnológicas, ecossistema y arquitectura en rack, no términos de licencia o precios.
Referencias
- NVIDIA blog: Scaling AI Inference Performance and Flexibility with NVIDIA NVLink and NVLink Fusion. https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion/
More resources
CUDA Toolkit 13.0 para Jetson Thor: Ecosistema Unificado de Arm y Más
Kit CUDA unificado para Arm en Jetson Thor con coherencia de memoria total, uso compartido de GPU entre procesos, interoperabilidad OpenRM/dmabuf, soporte NUMA y herramientas mejoradas para embebidos y servidores.
Reducir costos de implementación de modelos manteniendo el rendimiento con intercambio de memoria de GPU
Utiliza el intercambio de memoria de GPU (hot-swapping de modelos) para compartir GPUs entre varios LLM, reducir costos de GPU ociosas y mejorar el autoescalado manteniendo los SLA.
Mejora del autoajuste de GEMM con nvMatmulHeuristics en CUTLASS 4.2
Presenta nvMatmulHeuristics para seleccionar rápidamente un conjunto corto de configuraciones de kernels GEMM con alto potencial para CUTLASS 4.2, reduciendo drásticamente el tiempo de ajuste y acercándose al rendimiento de una búsqueda exhaustiva.
Haz ZeroGPU Spaces más rápido con la compilación ahead-of-time (AoT) de PyTorch
Descubre cómo la compilación AoT de PyTorch acelera ZeroGPU Spaces exportando un modelo compilado y recargándolo al instante, con cuantización FP8, formas dinámicas e integración con Spaces GPU.
Ajuste fino de gpt-oss para Precisión y Rendimiento con Entrenamiento Consciente de Cuantización (QAT)
Guía de afinado fino de gpt-oss usando SFT + QAT para recuperar precisión FP4 manteniendo la eficiencia, con upcasting a BF16, MXFP4, NVFP4 y despliegue con TensorRT-LLM.
Cómo los modelos de lenguaje pequeños son la clave para una IA agentica escalable
Explica cómo los modelos de lenguaje pequeños permiten IA agentica más rentable y flexible junto a LLMs, mediante NVIDIA NeMo y Nemotron Nano 2.