Skip to content
Dimensionando a Inferência de IA com NVIDIA NVLink Fusion: Fibras de escala para CPUs e XPUs personalizadas
Source: developer.nvidia.com

Dimensionando a Inferência de IA com NVIDIA NVLink Fusion: Fibras de escala para CPUs e XPUs personalizadas

Sources: https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion

TL;DR

  • O crescimento da complexidade de IA elevou contagens de parâmetros de milhões para trilhões, exigindo clusters de GPUs e paralelização em larga escala para a inferência.
  • O NVLink Fusion oferece acesso a tecnologias de escala de NVLink já comprovadas em produção, permitindo a integração de CPUs personalizadas e XPUs à malha de NVLink, via padrões abertos e soluções modulares de rack.
  • A quinta geração do NVLink (2024) suporta 72 GPUs com comunicação all-to-all a 1.800 GB/s, totalizando cerca de 130 TB/s de largura de banda agregada—aprox. 800x mais rápido que a primeira geração.
  • NCCL, a biblioteca de communication da NVIDIA, continua sendo essencial para comunicação GPU-a-GPU em topologias de escala e de extensão, integrada aos principais frameworks.
  • O ecossistema NVLink Fusion inclui uma solução de rack MGX (Open Compute Project), bridges para UCIe para XPUs e software CUDA-X para acelerar cargas de IA em stacks de hardware personalizados.

Contexto e antecedentes

O crescimento rápido da IA elevou a complexidade de modelos, levando contagens de parâmetros a trilhões e exigindo recursos computacionais sem precedentes. As cargas de inferência dependem de paralelização em grande escala, incluindo paralelismo em tensor, pipeline e experts (Mixture-of-Experts), para entregar o desempenho necessário aos modelos atuais. Essa evolução impulsiona sistemas de IA para estruturas de computação e memória em escala, permitindo que GPUs atuem como um domínio único de computação e memória. A NVIDIA introduziu o NVLink em 2016 para superar limitações do PCIe em HPC e workloads de IA, permitindo comunicação GPU-GPU mais rápida e um espaço de memória unificado. Em 2018, o NVLink Switch atingiu 300 GB/s de banda larga all-to-all em uma topologia de 8 GPUs, abrindo caminho para tecidos de escala no era de computação multi-GPU. A terceira geração trouxe o SHARP, otimizando reduções de largura de banda e latência de operações coletivas. Em 2024, o quinto NVLink oferece comunicação all-to-all entre 72 GPUs a 1.800 GB/s, com 130 TB/s de banda agregada—aproximadamente 800x o desempenho da primeira geração. A NVIDIA continua avançando essas capacidades anualmente para acompanhar o crescimento exponencial da demanda de IA. Um fator crítico é o NCCL, a biblioteca aberta de comunicações da NVIDIA, projetada para acelerar a comunicação GPU-GPU em topologias de escala única e distribuída. NCCL suporta tanto scale-up quanto scale-out, com reconhecimento de topologia e otimizações, integrando-se aos principais frameworks de IA. Juntas, as tecnologias NVLink e NCCL formam a base para inferência de alto desempenho em cargas de IA diversificadas.

O que há de novo

O NVLink Fusion amplia o acesso às tecnologias de escala de NVLink já comprovadas pela produção, oferecendo caminhos modulares e abertos para integração de CPUs personalizadas e XPUs com a malha de NVLink. A ideia é permitir infraestruturas semi-customizadas de IA, que podem ser implantadas em escala, com flexibilidade para adaptar o hardware às necessidades específicas de inferência. Principais recursos:

  • Uma solução modular de rack MGX baseada em Open Compute Project (OCP), capaz de integrar NICs, DPUs ou switches de escala, proporcionando compatibilidade ampla e implantação rápida.
  • Interfaces para XPUs via IP UCIe, com um chip-bridge da NVIDIA para UCIe-NVLink de alto desempenho, mantendo acesso às capacidades do NVLink.
  • Para configurações de CPU personalizadas, o IP NVLink-C2C conecta GPUs NVIDIA a CPUs não-NVIDIA, permitindo movimento de dados de alto desempenho em ambientes mistos e acesso ao ecossistema CUDA-X.
  • Um ecossistema sólido de parceiros em silício personalizado, CPUs e IPs, apoiando rápidas operações de design-in e avanço contínuo.
  • Sistemas de rack prontos para produção, como os GB200 NVL72 e GB300 NVL72, que demonstram maturidade do NVLink Fusion em implantações reais. Assim, o NVLink Fusion oferece aos hyperescalares um caminho para aproveitar a família de escala NVLink madura, mantendo a flexibilidade para adaptar CPUs, XPUs ou configurações mistas para cargas de inferência modernas.

Por que isso importa (impacto para desenvolvedores/empresas)

A inferência de IA hoje é definida por mais do que apenas mais GPUs: envolve interconexões de alto rendimento, ecossistemas de software maduros e uma arquitetura que permite maior eficiência. A combinação de interconexões de alto desempenho, integração flexível de CPU/XPU e o ecossistema de software CUDA-X permite que desenvolvedores otimizem throughput por watt e reduzam a latência em grandes pools de GPUs. Ao possibilitar que CPUs e XPUs participem da malha NVLink, as empresas podem adaptar recursos de computação e memória às necessidades dos modelos modernos, incluindo Mixtures-of-Experts e escalonamento com base no tempo de avaliação, mantendo compatibilidade com fluxos de trabalho já estabelecidos em CUDA. A configuração de rack com 72 GPUs, comunicação all-to-all e 130 TB/s de banda agregada, aliada a arquiteturas de rack de alta densidade e resfriamento avançado, suporta uma variedade de cenários de inferência. Para desenvolvedores, isso significa servir modelos com mais eficiência, melhor latência e escalabilidade de cargas de inferência com menos gargalos na interconexão. Para operadores de data centers, o NVLink Fusion oferece o caminho para tecidos de escala de rack, em conformidade com padrões abertos de MGX e cadeias de suprimentos já estabelecidas, potencialmente reduzindo o tempo de implantação e acelerando o time-to-market de stacks de IA sob medida.

Detalhes técnicos ou Implementação

Hardware e interconexões

O NVLink Fusion expõe tecnologias centrais de escala, incluindo NVLink SERDES, chiplets NVLink, switches NVLink, além de todo o ecossistema de rack (spine, cabos de cobre, alimentação e resfriamento avançado), para operar como um domínio único de memória e computação. Este stack é projetado para suportar cargas de inferência de grande escala com baixa latência entre GPUs.

Interfaces para CPUs e XPUs

Para configurações de XPUs personalizadas, o NVLink Fusion utiliza interface IP UCIe para conectar XPUs ao NVLink. A NVIDIA fornece um chip-bridge de UCIe para NVLink, visando manter desempenho elevado e facilitar a integração, mantendo acesso às capacidades NVLink. O padrão aberto UCIe oferece flexibilidade para escolher opções de XPU para plataformas presentes e futuras. Para CPUs personalizadas, o IP NVLink-C2C conecta GPUs NVIDIA a CPUs sem NVIDIA, viabilizando movimento de dados eficiente em ambientes mistos e acesso ao ecossistema CUDA-X.

Software e bibliotecas

O NCCL continua sendo a peça central de software para comunicação GPU-GPU, oferecendo largura de banda próxima ao teórico para transferências em topologias de scale-up e scale-out, com suporte a topologia automática e otimizações. O NCCL está integrado aos principais frameworks de Deep Learning, suportando uma pilha de software madura para inferência de IA em larga escala.

Arquitetura de rack e ecossistema

O NVLink Fusion é concebido como uma solução MGX de rack, capaz de interagir com NICs, DPUs ou switches de escala, fornecendo um ecossistema pronto para produção. A arquitetura de rack de alta densidade, incluindo spine e interconexões de alto desempenho, foi desenhada para sustentar cargas de inferência em larga escala, caracterizando-se como parte de uma stack pronta para produção baseada em padrões abertos.

Implementação em produção e roadmap

A NVIDIA tem operado com tecnologias de scale-up NVLink por quase uma década, com avanços em cinco gerações de NVLink. A geração de 2024 atinge 1.800 GB/s all-to-all entre 72 GPUs e 130 TB/s de banda agregada, marcando um salto substancial. Combinar melhorias de hardware com otimizações de software NCCL busca acompanhar o crescimento exponencial da complexidade de IA.

Principais pontos

  • NVLink Fusion amplia acesso às tecnologias comprovadas de escala NVLink para hyperscalers, permitindo a integração de CPUs personalizadas e XPUs à malha NVLink.
  • Solução MGX de rack modular com interfaces UCIe para XPUs e NVLink-C2C para CPUs, conectando-se a bibliotecas CUDA-X.
  • Topologia de 72 GPUs com 1.800 GB/s all-to-all e 130 TB/s de largura de banda agregada, suportando cenários diversos de inferência.
  • NCCL continua sendo o pilar de software para comunicações rápidas entre GPUs em topologias de scale-up/scale-out.
  • Sistemas de rack prontos para produção (GB200 NVL72, GB300 NVL72) e um ecossistema amplo para acelerar o time-to-market de stacks de IA personalizados.

FAQ

  • O que é NVLink Fusion?

    NVLink Fusion é a estratégia da NVIDIA para oferecer aos hyperescalares acesso a tecnologias de escala de NVLink já comprovadas em produção, permitindo a integração de CPUs personalizadas e XPUs à malha NVLink via soluções modulares MGX e interfaces abertas como UCIe.

  • Como a integração de XPUs funciona com NVLink Fusion?

    XPUs conectam-se à malha NVLink por meio da IP UCIe, com um chip-bridge fornecido pela NVIDIA para manter desempenho e facilitar a integração, preservando o acesso às capacidades NVLink.

  • Qual o papel do NCCL nesses sistemas?

    O NCCL acelera a comunicação GPU-GPU em topologias de scale-up e scale-out, com reconhecimento de topologia e otimizações, sendo integrado aos principais frameworks de IA.

  • Por que isso é relevante para cargas de inferência de IA?

    Interconexões de alta largura de banda, integração flexível de CPU/XPU e o ecossistema CUDA-X permitem inferência mais eficiente, com menor latência e maior escalabilidade em modelos modernos, incluindo Mixture-of-Experts.

  • Existem sistemas de rack prontos para produção?

    Sim, a NVIDIA cita sistemas de rack prontos para produção como GB200 NVL72 e GB300 NVL72 como parte do ecossistema NVLink Fusion.

Referências

More news