Dimensionando a Inferência de IA com NVIDIA NVLink Fusion: Fibras de escala para CPUs e XPUs personalizadas
TL;DR
- O crescimento da complexidade de IA elevou contagens de parâmetros de milhões para trilhões, exigindo clusters de GPUs e paralelização em larga escala para a inferência.
- O NVLink Fusion oferece acesso a tecnologias de escala de NVLink já comprovadas em produção, permitindo a integração de CPUs personalizadas e XPUs à malha de NVLink, via padrões abertos e soluções modulares de rack.
- A quinta geração do NVLink (2024) suporta 72 GPUs com comunicação all-to-all a 1.800 GB/s, totalizando cerca de 130 TB/s de largura de banda agregada—aprox. 800x mais rápido que a primeira geração.
- NCCL, a biblioteca de communication da NVIDIA, continua sendo essencial para comunicação GPU-a-GPU em topologias de escala e de extensão, integrada aos principais frameworks.
- O ecossistema NVLink Fusion inclui uma solução de rack MGX (Open Compute Project), bridges para UCIe para XPUs e software CUDA-X para acelerar cargas de IA em stacks de hardware personalizados.
Contexto e antecedentes
O crescimento rápido da IA elevou a complexidade de modelos, levando contagens de parâmetros a trilhões e exigindo recursos computacionais sem precedentes. As cargas de inferência dependem de paralelização em grande escala, incluindo paralelismo em tensor, pipeline e experts (Mixture-of-Experts), para entregar o desempenho necessário aos modelos atuais. Essa evolução impulsiona sistemas de IA para estruturas de computação e memória em escala, permitindo que GPUs atuem como um domínio único de computação e memória. A NVIDIA introduziu o NVLink em 2016 para superar limitações do PCIe em HPC e workloads de IA, permitindo comunicação GPU-GPU mais rápida e um espaço de memória unificado. Em 2018, o NVLink Switch atingiu 300 GB/s de banda larga all-to-all em uma topologia de 8 GPUs, abrindo caminho para tecidos de escala no era de computação multi-GPU. A terceira geração trouxe o SHARP, otimizando reduções de largura de banda e latência de operações coletivas. Em 2024, o quinto NVLink oferece comunicação all-to-all entre 72 GPUs a 1.800 GB/s, com 130 TB/s de banda agregada—aproximadamente 800x o desempenho da primeira geração. A NVIDIA continua avançando essas capacidades anualmente para acompanhar o crescimento exponencial da demanda de IA. Um fator crítico é o NCCL, a biblioteca aberta de comunicações da NVIDIA, projetada para acelerar a comunicação GPU-GPU em topologias de escala única e distribuída. NCCL suporta tanto scale-up quanto scale-out, com reconhecimento de topologia e otimizações, integrando-se aos principais frameworks de IA. Juntas, as tecnologias NVLink e NCCL formam a base para inferência de alto desempenho em cargas de IA diversificadas.
O que há de novo
O NVLink Fusion amplia o acesso às tecnologias de escala de NVLink já comprovadas pela produção, oferecendo caminhos modulares e abertos para integração de CPUs personalizadas e XPUs com a malha de NVLink. A ideia é permitir infraestruturas semi-customizadas de IA, que podem ser implantadas em escala, com flexibilidade para adaptar o hardware às necessidades específicas de inferência. Principais recursos:
- Uma solução modular de rack MGX baseada em Open Compute Project (OCP), capaz de integrar NICs, DPUs ou switches de escala, proporcionando compatibilidade ampla e implantação rápida.
- Interfaces para XPUs via IP UCIe, com um chip-bridge da NVIDIA para UCIe-NVLink de alto desempenho, mantendo acesso às capacidades do NVLink.
- Para configurações de CPU personalizadas, o IP NVLink-C2C conecta GPUs NVIDIA a CPUs não-NVIDIA, permitindo movimento de dados de alto desempenho em ambientes mistos e acesso ao ecossistema CUDA-X.
- Um ecossistema sólido de parceiros em silício personalizado, CPUs e IPs, apoiando rápidas operações de design-in e avanço contínuo.
- Sistemas de rack prontos para produção, como os GB200 NVL72 e GB300 NVL72, que demonstram maturidade do NVLink Fusion em implantações reais. Assim, o NVLink Fusion oferece aos hyperescalares um caminho para aproveitar a família de escala NVLink madura, mantendo a flexibilidade para adaptar CPUs, XPUs ou configurações mistas para cargas de inferência modernas.
Por que isso importa (impacto para desenvolvedores/empresas)
A inferência de IA hoje é definida por mais do que apenas mais GPUs: envolve interconexões de alto rendimento, ecossistemas de software maduros e uma arquitetura que permite maior eficiência. A combinação de interconexões de alto desempenho, integração flexível de CPU/XPU e o ecossistema de software CUDA-X permite que desenvolvedores otimizem throughput por watt e reduzam a latência em grandes pools de GPUs. Ao possibilitar que CPUs e XPUs participem da malha NVLink, as empresas podem adaptar recursos de computação e memória às necessidades dos modelos modernos, incluindo Mixtures-of-Experts e escalonamento com base no tempo de avaliação, mantendo compatibilidade com fluxos de trabalho já estabelecidos em CUDA. A configuração de rack com 72 GPUs, comunicação all-to-all e 130 TB/s de banda agregada, aliada a arquiteturas de rack de alta densidade e resfriamento avançado, suporta uma variedade de cenários de inferência. Para desenvolvedores, isso significa servir modelos com mais eficiência, melhor latência e escalabilidade de cargas de inferência com menos gargalos na interconexão. Para operadores de data centers, o NVLink Fusion oferece o caminho para tecidos de escala de rack, em conformidade com padrões abertos de MGX e cadeias de suprimentos já estabelecidas, potencialmente reduzindo o tempo de implantação e acelerando o time-to-market de stacks de IA sob medida.
Detalhes técnicos ou Implementação
Hardware e interconexões
O NVLink Fusion expõe tecnologias centrais de escala, incluindo NVLink SERDES, chiplets NVLink, switches NVLink, além de todo o ecossistema de rack (spine, cabos de cobre, alimentação e resfriamento avançado), para operar como um domínio único de memória e computação. Este stack é projetado para suportar cargas de inferência de grande escala com baixa latência entre GPUs.
Interfaces para CPUs e XPUs
Para configurações de XPUs personalizadas, o NVLink Fusion utiliza interface IP UCIe para conectar XPUs ao NVLink. A NVIDIA fornece um chip-bridge de UCIe para NVLink, visando manter desempenho elevado e facilitar a integração, mantendo acesso às capacidades NVLink. O padrão aberto UCIe oferece flexibilidade para escolher opções de XPU para plataformas presentes e futuras. Para CPUs personalizadas, o IP NVLink-C2C conecta GPUs NVIDIA a CPUs sem NVIDIA, viabilizando movimento de dados eficiente em ambientes mistos e acesso ao ecossistema CUDA-X.
Software e bibliotecas
O NCCL continua sendo a peça central de software para comunicação GPU-GPU, oferecendo largura de banda próxima ao teórico para transferências em topologias de scale-up e scale-out, com suporte a topologia automática e otimizações. O NCCL está integrado aos principais frameworks de Deep Learning, suportando uma pilha de software madura para inferência de IA em larga escala.
Arquitetura de rack e ecossistema
O NVLink Fusion é concebido como uma solução MGX de rack, capaz de interagir com NICs, DPUs ou switches de escala, fornecendo um ecossistema pronto para produção. A arquitetura de rack de alta densidade, incluindo spine e interconexões de alto desempenho, foi desenhada para sustentar cargas de inferência em larga escala, caracterizando-se como parte de uma stack pronta para produção baseada em padrões abertos.
Implementação em produção e roadmap
A NVIDIA tem operado com tecnologias de scale-up NVLink por quase uma década, com avanços em cinco gerações de NVLink. A geração de 2024 atinge 1.800 GB/s all-to-all entre 72 GPUs e 130 TB/s de banda agregada, marcando um salto substancial. Combinar melhorias de hardware com otimizações de software NCCL busca acompanhar o crescimento exponencial da complexidade de IA.
Principais pontos
- NVLink Fusion amplia acesso às tecnologias comprovadas de escala NVLink para hyperscalers, permitindo a integração de CPUs personalizadas e XPUs à malha NVLink.
- Solução MGX de rack modular com interfaces UCIe para XPUs e NVLink-C2C para CPUs, conectando-se a bibliotecas CUDA-X.
- Topologia de 72 GPUs com 1.800 GB/s all-to-all e 130 TB/s de largura de banda agregada, suportando cenários diversos de inferência.
- NCCL continua sendo o pilar de software para comunicações rápidas entre GPUs em topologias de scale-up/scale-out.
- Sistemas de rack prontos para produção (GB200 NVL72, GB300 NVL72) e um ecossistema amplo para acelerar o time-to-market de stacks de IA personalizados.
FAQ
-
O que é NVLink Fusion?
NVLink Fusion é a estratégia da NVIDIA para oferecer aos hyperescalares acesso a tecnologias de escala de NVLink já comprovadas em produção, permitindo a integração de CPUs personalizadas e XPUs à malha NVLink via soluções modulares MGX e interfaces abertas como UCIe.
-
Como a integração de XPUs funciona com NVLink Fusion?
XPUs conectam-se à malha NVLink por meio da IP UCIe, com um chip-bridge fornecido pela NVIDIA para manter desempenho e facilitar a integração, preservando o acesso às capacidades NVLink.
-
Qual o papel do NCCL nesses sistemas?
O NCCL acelera a comunicação GPU-GPU em topologias de scale-up e scale-out, com reconhecimento de topologia e otimizações, sendo integrado aos principais frameworks de IA.
-
Por que isso é relevante para cargas de inferência de IA?
Interconexões de alta largura de banda, integração flexível de CPU/XPU e o ecossistema CUDA-X permitem inferência mais eficiente, com menor latência e maior escalabilidade em modelos modernos, incluindo Mixture-of-Experts.
-
Existem sistemas de rack prontos para produção?
Sim, a NVIDIA cita sistemas de rack prontos para produção como GB200 NVL72 e GB300 NVL72 como parte do ecossistema NVLink Fusion.
Referências
More news
NVIDIA HGX B200 reduz a Intensidade de Emissões de Carbono Incorporado
O HGX B200 da NVIDIA reduz 24% da intensidade de carbono incorporado em relação ao HGX H100, ao mesmo tempo em que aumenta o desempenho de IA e a eficiência energética. Esta análise resume os dados de PCF e as novidades de hardware.
Prever Eventos Climáticos Extremos em Minutos sem Supercomputador com Huge Ensembles (HENS)
NVIDIA e o Lawrence Berkeley National Laboratory apresentam Huge Ensembles (HENS), uma ferramenta de IA de código aberto que prevê eventos climáticos raros e de alto impacto usando 27.000 anos de dados, com opções de código aberto ou prontos para uso.
Playbook dos Grandmasters do Kaggle: 7 Técnicas de Modelagem Testadas para Dados Tabulares
Análise detalhada de sete técnicas testadas por Grandmasters do Kaggle para resolver grandes conjuntos de dados tabulares com aceleração por GPU, desde baselines diversificados até ensemble avançado e pseudo-rotulagem.
Como reduzir gargalos do KV Cache com NVIDIA Dynamo
O Dynamo da NVIDIA transfere o KV Cache da memória da GPU para armazenamento de custo mais baixo, permitindo janelas de contexto maiores, maior concorrência e menor custo de inferência em grandes modelos.
Microsoft transforma site da Foxconn no data center Fairwater AI, considerado o mais poderoso do mundo
A Microsoft divulga planos para um data center Fairwater AI de 1,2 milhão de pés quadrados no Wisconsin, com centenas de milhares de GPUs Nvidia GB200. projeto de US$ 3,3 bilhões promete treinamento de IA em escala sem precedentes.
NVIDIA RAPIDS 25.08 Adiciona Novo Profiler para cuML, Melhorias no Motor GPU Polars e Suporte Ampliado de Algoritmos
RAPIDS 25.08 traz profiladores function-level e line-level para cuml.accel, executor streaming padrão no motor GPU Polars, suporte ampliado de tipos e strings, novo Spectral Embedding no cuML e acelerações com zero código para mais algoritmos.