NVLink Fusion: Escalando Inferência de IA com NVLink para CPUs/XPUs Personalizados
Sources: https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion, https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion/, NVIDIA Dev Blog
Visão geral
O crescimento rápido da complexidade de IA — de milhões para trilhões de parâmetros — impõe demandas de computação sem precedentes que normalmente exigem clusters de GPUs. Em workloads de inferência, o uso de arquiteturas MoE (mistura de especialistas) e escalonamento durante o tempo de teste aumenta ainda mais a demanda de computação e memória. Para atender a esse objetivo, a indústria tem adotado paralelização em larga escala e fabrics de memória com semântica de memória que permitem que várias GPUs operem como um único pool de computação e memória. O NVLink Fusion amplia o fabric scale-up comprovado do NVLink para implantações programáveis em nível de rack, oferecendo aos hyperscalers e empresas uma via para inferência de IA em grande escala com hardware e software co-desenhados. O NVLink surgiu em 2016 para superar as limitações do PCIe, permitindo comunicação GPU-GPU mais rápida e memória unificada. Em 2018, o NVLink Switch entregou 300 GB/s de banda larga total entre GPUs em uma topologia de 8 GPUs, abrindo caminho para fabrics de scale-up. A tecnologia SHARP da terceira geração reduziu latência de operações e otimizou a redução de largura de banda, além de melhorar operações coletivas. Com o NVLink de quinta geração, lançado em 2024, o suporte a 72 GPUs com 1.800 GB/s de comunicação all-to-all resulta em aproximadamente 130 TB/s de largura de banda agregada — cerca de 800x em relação à primeira geração. A NVIDIA continua avançando com novas gerações a cada ano para acompanhar o crescimento dos modelos de IA. O desempenho com NVLink depende de hardware e de bibliotecas, em especial NCCL (NVIDIA Collective Communication Library), que acelera a comunicação GPU-GPU, é de código aberto e se integra aos principais frameworks de aprendizado profundo através de bibliotecas CUDA-X. O NVLink Fusion amplia o acesso a esse fabric scale-up, permitindo caminhos com silício semi-custom (CPUs e XPUs) para integrar com a tecnologia NVLink scale-up e com a arquitetura em rack para implantações semimodulares de IA. Ele suporta padrões abertos e uma arquitetura modular OCP MGX, possibilitando integração com NICs, DPUs ou switches de escala e configurando CPUs personalizadas ou XPUs via IP UCIe ou via NVLink-C2C IP. O resultado é um ecossistema flexível, pronto para produção, projetado para escalar inferência de IA em grandes domínios mantendo coerência de memória e comunicação de alta largura de banda. Para a oferta em rack, a NVIDIA aponta para sistemas prontos para produção (por exemplo, GB200 NVL72 e GB300 NVL72) e um ecossistema que facilita a entrada no mercado. A abordagem NVLink Fusion enfatiza um ecossistema de silício robusto, com parceiros para silício personalizado, CPUs e IP, além de uma solução de rack pronta para o data center com rede de espinha dorsal de alta densidade, cabos de cobre, resfriamento avançado e prontidão de cadeia de suprimentos. Em resumo, o NVLink Fusion embala a tecnologia de scale-up NVLink com um ecossistema amplo para permitir integrações personalizadas e de grande escala para inferência de IA. Referência: visão geral da NVIDIA sobre NVLink e NVLink Fusion para escalar a inferência de IA: https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion/.
Principais recursos
- O NVLink Fusion expande as capacidades de scale-up do NVLink para caminhos de silício personalizados de CPU e XPU, conectando CPUs/XPUs com o fabric scale-up do NVLink através de IP UCIe e NVLink chiplets.
- Compatibilidade com o Open Compute Project (OCP) MGX para rack modular, pronto para produção, que pode integrar NICs, DPUs ou switches de escala.
- Integração baseada em IP UCIe para XPUs personalizados e IP NVLink-C2C para conectividade entre CPU e GPU com acesso à memória coerente de alto desempenho.
- Infraestrutura de hardware inclui NVLink SERDES, chiplets NVLink, NVLink Switches, bem como spine de rack, cabos de cobre, resfriamento avançado e itens de energia para implantações de alta densidade.
- Topologia de 72 GPUs com até 1.800 GB/s de comunicação all-to-all e cerca de 130 TB/s de largura de banda agregada, com ganhos significativos sobre gerações anteriores.
- NCCL continua sendo o pilar para alcançar largura de banda próxima ao teórico entre GPUs, com reconhecimento automático de topologia e integração com bibliotecas CUDA-X.
- A plataforma apoia um domínio computacional-unificado, permitindo paralelismos em tensor, pipeline e expert across grandes domínios de GPUs.
- Ecossistema de silício amplo com parceiros para silício personalizado, CPUs e IPs, promovendo flexibilidade de design e entrada rápida no mercado.
- Abordagem orientada a produção, com soluções em rack de scale-up, visando inferência de IA em ambientes empresariais e de grande escala.
Casos de uso comuns
- Inferência em larga escala para modelos com grandes contagens de parâmetros, incluindo arquiteturas MoE (mistura de especialistas) e cenários de escalonamento durante o tempo de inferência.
- Implantações de hyperscale que exigem escalas de centenas ou milhares de GPUs envolvendo arquitetura de memória/coerência de alta largura de banda.
- Inferência de LLMs e outros workloads de transformadores onde o equilíbrio entre rendimento por watt e latência é ajudado por fabrics de interconexão NVLink em escala.
- Pipelines de IA personalizados que necessitam de configurações de CPU/XPU fortemente acopladas para atingir baixa latência entre várias famílias de modelos.
- Cenários onde um pool único de computação e memória simplifica a orquestração entre milhares de elementos de computação.
Setup & instalação
Detalhes de configuração e instalação não são especificados na fonte fornecida. O artigo descreve a arquitetura e o ecossistema, não um guia de implantação passo a passo. Consulte o artigo original para contexto, capacidades e componentes do ecossistema: https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion/.
# Setup e instalação não fornecidos na fonte.
# Este espaço é intencionalmente deixado sem comandos executáveis.
Quick start
A fonte descreve capacidades e padrões arquitetônicos, não um guia rápido executável. Um caminho prático mínimo seria engajar o ecossistema NVLink Fusion para alinhar uma solução de rack com uma estratégia de CPU/XPU, mas o texto não fornece passos ou código executável. O essencial é entender como a integração semicom personalizável de CPU/XPUs conectada via NVLink Fusion pode atender a inferência de IA em larga escala. Para contexto sobre capacidades, metas de desempenho e componentes do ecossistema, leia o artigo original: https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion/.
Vantagens e desvantagens
- Vantagens
- Interconexões de escala com largura de banda muito alta all-to-all (até 1.800 GB/s) e rendimento agregado de cerca de 130 TB/s.
- Capacidade de integrar CPUs e XPUs personalizados ao fabric scale-up do NVLink, permitindo implantações semi-custom de IA.
- Padrões abertos e compatibilidade com racks MGX do OCP, acelerando a adoção em produção com um ecossistema amplo.
- Suporte forte de software via NCCL, com reconhecimento automático de topologia e integração com bibliotecas CUDA-X.
- Domínio computacional unificado com suporte a paralelismos tensor, pipeline e expert em grandes domínios de GPUs.
- Desvantagens
- o texto não apresenta explicitamente desvantagens ou trade-offs; avaliação prática deve ocorrer em cada contexto de implantação.
- a implantação envolve soluções de rack especializadas, o que pode exigir mais esforço de integração e planejamento.
- nem todos os workloads se beneficiarão de uma solução de scale-up tão robusta; a proposição de valor depende do tamanho do modelo, da estratégia de paralelismo e de metas de latência.
Alternativas (breve comparação)
| Alternativa de interconexão | Diferença em relação ao NVLink Fusion | Observações da fonte |---|---|---| | Interconexões PCIe | NVLink foi criado para superar limitações do PCIe, oferecendo maior largura de banda e memória unificada | PCIe era a base anterior; NVLink proporciona maior largura de banda e coerência de memória entre GPUs |NVLink scale-up sem Fusion | Fabrics de scale-up NVLink tradicionais entre GPUs e switches NVLink | Fusion amplia o acesso a tecnologias de scale-up por meio de rack modular e interfaces CPU/XPU |NVLink-C2C para CPUs | Conectividade entre GPUs NVIDIA e CPUs personalizadas via IP NVLink-C2C | Útil para caminhos CPU-GPU otimizados em configurações semi-custom |
Preços ou licença
Não especificado na fonte. O artigo discute capacidades tecnológicas, ecossistema e arquitetura de rack em produção, não termos de licenciamento ou preços.
Referências
- NVIDIA blog: Scaling AI Inference Performance and Flexibility with NVIDIA NVLink and NVLink Fusion. https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion/
More resources
CUDA Toolkit 13.0 para Jetson Thor: Ecossistema Unificado de Arm e Mais
Kit de ferramentas CUDA unificado para Arm no Jetson Thor com coerência total de memória, compartilhamento de GPU entre processos, interoperabilidade OpenRM/dmabuf, suporte NUMA e melhorias de ferramentas para embarcados e servidores.
Reduzir Custos de Implantação de Modelos Mantendo Desempenho com Swap de Memória de GPU
Utilize o swap de memória da GPU (hot-swapping de modelos) para compartilhar GPUs entre múltiplos LLMs, reduzir custos de ociosidade e melhorar o autoscaling mantendo os SLAs.
Aprimorando a auto-tunagem de GEMM com nvMatmulHeuristics no CUTLASS 4.2
Apresenta nvMatmulHeuristics para escolher rapidamente um conjunto pequeno de configurações de kernels GEMM com alto potencial para o CUTLASS 4.2, reduzindo drasticamente o tempo de tuning enquanto se aproxima do desempenho da busca exaustiva.
Deixe os ZeroGPU Spaces mais rápidos com compilação ahead-of-time (AoT) do PyTorch
Descubra como a AoT do PyTorch acelera ZeroGPU Spaces exportando um modelo compilado e recarregando-o instantaneamente, com quantização FP8, formas dinâmicas e integração cuidadosa com o fluxo Spaces GPU.
Fine-Tuning gpt-oss para Precisão e Desempenho com Treinamento de Quantização (QAT)
Guia de fine-tuning do gpt-oss com SFT + QAT para recuperar a precisão em FP4 mantendo a eficiência, incluindo upcasting para BF16, MXFP4, NVFP4 e implantação com TensorRT-LLM.
Como Modelos de Linguagem Pequenos são a Chave para IA Agentica Escalável
Explora como modelos de linguagem pequenos permitem IA agentica mais barata, flexível e escalável, ao lado de LLMs, com NVIDIA NeMo e Nemotron Nano 2.