Skip to content
NVLink Fusion: Escalando Inferência de IA com NVLink para CPUs/XPUs Personalizados
Source: developer.nvidia.com

NVLink Fusion: Escalando Inferência de IA com NVLink para CPUs/XPUs Personalizados

Sources: https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion, https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion/, NVIDIA Dev Blog

Visão geral

O crescimento rápido da complexidade de IA — de milhões para trilhões de parâmetros — impõe demandas de computação sem precedentes que normalmente exigem clusters de GPUs. Em workloads de inferência, o uso de arquiteturas MoE (mistura de especialistas) e escalonamento durante o tempo de teste aumenta ainda mais a demanda de computação e memória. Para atender a esse objetivo, a indústria tem adotado paralelização em larga escala e fabrics de memória com semântica de memória que permitem que várias GPUs operem como um único pool de computação e memória. O NVLink Fusion amplia o fabric scale-up comprovado do NVLink para implantações programáveis em nível de rack, oferecendo aos hyperscalers e empresas uma via para inferência de IA em grande escala com hardware e software co-desenhados. O NVLink surgiu em 2016 para superar as limitações do PCIe, permitindo comunicação GPU-GPU mais rápida e memória unificada. Em 2018, o NVLink Switch entregou 300 GB/s de banda larga total entre GPUs em uma topologia de 8 GPUs, abrindo caminho para fabrics de scale-up. A tecnologia SHARP da terceira geração reduziu latência de operações e otimizou a redução de largura de banda, além de melhorar operações coletivas. Com o NVLink de quinta geração, lançado em 2024, o suporte a 72 GPUs com 1.800 GB/s de comunicação all-to-all resulta em aproximadamente 130 TB/s de largura de banda agregada — cerca de 800x em relação à primeira geração. A NVIDIA continua avançando com novas gerações a cada ano para acompanhar o crescimento dos modelos de IA. O desempenho com NVLink depende de hardware e de bibliotecas, em especial NCCL (NVIDIA Collective Communication Library), que acelera a comunicação GPU-GPU, é de código aberto e se integra aos principais frameworks de aprendizado profundo através de bibliotecas CUDA-X. O NVLink Fusion amplia o acesso a esse fabric scale-up, permitindo caminhos com silício semi-custom (CPUs e XPUs) para integrar com a tecnologia NVLink scale-up e com a arquitetura em rack para implantações semimodulares de IA. Ele suporta padrões abertos e uma arquitetura modular OCP MGX, possibilitando integração com NICs, DPUs ou switches de escala e configurando CPUs personalizadas ou XPUs via IP UCIe ou via NVLink-C2C IP. O resultado é um ecossistema flexível, pronto para produção, projetado para escalar inferência de IA em grandes domínios mantendo coerência de memória e comunicação de alta largura de banda. Para a oferta em rack, a NVIDIA aponta para sistemas prontos para produção (por exemplo, GB200 NVL72 e GB300 NVL72) e um ecossistema que facilita a entrada no mercado. A abordagem NVLink Fusion enfatiza um ecossistema de silício robusto, com parceiros para silício personalizado, CPUs e IP, além de uma solução de rack pronta para o data center com rede de espinha dorsal de alta densidade, cabos de cobre, resfriamento avançado e prontidão de cadeia de suprimentos. Em resumo, o NVLink Fusion embala a tecnologia de scale-up NVLink com um ecossistema amplo para permitir integrações personalizadas e de grande escala para inferência de IA. Referência: visão geral da NVIDIA sobre NVLink e NVLink Fusion para escalar a inferência de IA: https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion/.

Principais recursos

  • O NVLink Fusion expande as capacidades de scale-up do NVLink para caminhos de silício personalizados de CPU e XPU, conectando CPUs/XPUs com o fabric scale-up do NVLink através de IP UCIe e NVLink chiplets.
  • Compatibilidade com o Open Compute Project (OCP) MGX para rack modular, pronto para produção, que pode integrar NICs, DPUs ou switches de escala.
  • Integração baseada em IP UCIe para XPUs personalizados e IP NVLink-C2C para conectividade entre CPU e GPU com acesso à memória coerente de alto desempenho.
  • Infraestrutura de hardware inclui NVLink SERDES, chiplets NVLink, NVLink Switches, bem como spine de rack, cabos de cobre, resfriamento avançado e itens de energia para implantações de alta densidade.
  • Topologia de 72 GPUs com até 1.800 GB/s de comunicação all-to-all e cerca de 130 TB/s de largura de banda agregada, com ganhos significativos sobre gerações anteriores.
  • NCCL continua sendo o pilar para alcançar largura de banda próxima ao teórico entre GPUs, com reconhecimento automático de topologia e integração com bibliotecas CUDA-X.
  • A plataforma apoia um domínio computacional-unificado, permitindo paralelismos em tensor, pipeline e expert across grandes domínios de GPUs.
  • Ecossistema de silício amplo com parceiros para silício personalizado, CPUs e IPs, promovendo flexibilidade de design e entrada rápida no mercado.
  • Abordagem orientada a produção, com soluções em rack de scale-up, visando inferência de IA em ambientes empresariais e de grande escala.

Casos de uso comuns

  • Inferência em larga escala para modelos com grandes contagens de parâmetros, incluindo arquiteturas MoE (mistura de especialistas) e cenários de escalonamento durante o tempo de inferência.
  • Implantações de hyperscale que exigem escalas de centenas ou milhares de GPUs envolvendo arquitetura de memória/coerência de alta largura de banda.
  • Inferência de LLMs e outros workloads de transformadores onde o equilíbrio entre rendimento por watt e latência é ajudado por fabrics de interconexão NVLink em escala.
  • Pipelines de IA personalizados que necessitam de configurações de CPU/XPU fortemente acopladas para atingir baixa latência entre várias famílias de modelos.
  • Cenários onde um pool único de computação e memória simplifica a orquestração entre milhares de elementos de computação.

Setup & instalação

Detalhes de configuração e instalação não são especificados na fonte fornecida. O artigo descreve a arquitetura e o ecossistema, não um guia de implantação passo a passo. Consulte o artigo original para contexto, capacidades e componentes do ecossistema: https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion/.

# Setup e instalação não fornecidos na fonte.
# Este espaço é intencionalmente deixado sem comandos executáveis.

Quick start

A fonte descreve capacidades e padrões arquitetônicos, não um guia rápido executável. Um caminho prático mínimo seria engajar o ecossistema NVLink Fusion para alinhar uma solução de rack com uma estratégia de CPU/XPU, mas o texto não fornece passos ou código executável. O essencial é entender como a integração semicom personalizável de CPU/XPUs conectada via NVLink Fusion pode atender a inferência de IA em larga escala. Para contexto sobre capacidades, metas de desempenho e componentes do ecossistema, leia o artigo original: https://developer.nvidia.com/blog/scaling-ai-inference-performance-and-flexibility-with-nvidia-nvlink-and-nvlink-fusion/.

Vantagens e desvantagens

  • Vantagens
  • Interconexões de escala com largura de banda muito alta all-to-all (até 1.800 GB/s) e rendimento agregado de cerca de 130 TB/s.
  • Capacidade de integrar CPUs e XPUs personalizados ao fabric scale-up do NVLink, permitindo implantações semi-custom de IA.
  • Padrões abertos e compatibilidade com racks MGX do OCP, acelerando a adoção em produção com um ecossistema amplo.
  • Suporte forte de software via NCCL, com reconhecimento automático de topologia e integração com bibliotecas CUDA-X.
  • Domínio computacional unificado com suporte a paralelismos tensor, pipeline e expert em grandes domínios de GPUs.
  • Desvantagens
  • o texto não apresenta explicitamente desvantagens ou trade-offs; avaliação prática deve ocorrer em cada contexto de implantação.
  • a implantação envolve soluções de rack especializadas, o que pode exigir mais esforço de integração e planejamento.
  • nem todos os workloads se beneficiarão de uma solução de scale-up tão robusta; a proposição de valor depende do tamanho do modelo, da estratégia de paralelismo e de metas de latência.

Alternativas (breve comparação)

| Alternativa de interconexão | Diferença em relação ao NVLink Fusion | Observações da fonte |---|---|---| | Interconexões PCIe | NVLink foi criado para superar limitações do PCIe, oferecendo maior largura de banda e memória unificada | PCIe era a base anterior; NVLink proporciona maior largura de banda e coerência de memória entre GPUs |NVLink scale-up sem Fusion | Fabrics de scale-up NVLink tradicionais entre GPUs e switches NVLink | Fusion amplia o acesso a tecnologias de scale-up por meio de rack modular e interfaces CPU/XPU |NVLink-C2C para CPUs | Conectividade entre GPUs NVIDIA e CPUs personalizadas via IP NVLink-C2C | Útil para caminhos CPU-GPU otimizados em configurações semi-custom |

Preços ou licença

Não especificado na fonte. O artigo discute capacidades tecnológicas, ecossistema e arquitetura de rack em produção, não termos de licenciamento ou preços.

Referências

More resources