Dentro do NVIDIA Blackwell Ultra: o chip que impulsiona a era da fábrica de IA
Sources: https://developer.nvidia.com/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era, https://developer.nvidia.com/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era/, NVIDIA Dev Blog
TL;DR
- O NVIDIA Blackwell Ultra é o membro mais recente da arquitetura Blackwell, projetado para treinamento de IA em escala de fábrica e serviços de IA em tempo real.
- Ele utiliza um design de dois dies conectados por NV-HBI, oferecendo 10 TB/s de largura de banda e um acelerador CUDA-programável com 208 bilhões de transistores na tecnologia TSMC 4NP.
- O GPU possui 160 SMs distribuídos em oito GPCs, com quatro Tensor Cores por SM (total de 640) otimizados para NVFP4, além de 256 KB de TMEM por SM.
- Blackwell Ultra entrega até 15 petaFLOPS de NVFP4, 288 GB de HBM3e por GPU, memória unificada de 1 TB e processamento de atenção aprimorado para grandes modelos contextuais.
- Para implantações em data centers, Blackwell Ultra suporta NVLink (GPU–GPU), NVLink-C2C (interoperabilidade com a Grace CPU) e PCIe Gen 6 x16, conectando-se a redes com ConnectX-8 para fábricas de IA em escala.
Contexto e antecedentes
A era da fábrica de IA exige hardware que escala tanto o compute quanto a memória com alta eficiência. O Blackwell Ultra é apresentado como o resultado de inovações de silício e integração em nível de sistema, visando acelerar treinamento e raciocínio de IA para serviços em tempo real e em grande escala. O design utiliza dois dies retículo-sized conectados por NV-HBI para fornecer um caminho de dados de alta largura de banda (10 TB/s) entre os dies, mantendo a aceleração CUDA-programável para facilidade de uso pelos desenvolvedores. Blackwell Ultra é fabricado pela TSMC 4NP e contém 208 bilhões de transistores—a aproximação de 2,6x em relação ao Hopper. O núcleo do chip é composto por 160 SMs organizados em oito GPCs. Cada SM oferece capacidade de computação para workloads modernos de IA, incluindo aceleração de operações de atenção que aparecem com destaque em modelos baseados em transformadores.
O que há de novo
Blackwell Ultra introduz avanços arquitetônicos e de capacidade para aumentar o throughput, reduzir a latência e expandir o espaço de memória para os maiores modelos de IA:
- Cores Tensor de quinta geração em todos os SMs, com um segundo Transformer Engine para maior throughput e menor latência em workloads densos e esparsos de IA.
- Quatro Tensor Cores por SM (640 no total), atualizados para NVFP4.
- 256 KB de TMEM por SM para manter dados próximos aos unidades de compute, além de suporte para MMA de dois blocos de threads, permitindo que SMs pareados cooperem em uma única operação MMA.
- Precisão NVFP4: fusão FP8 com escala de FP32, permitindo quantização com menor erro do que FP4 padrão e reduzindo o footprint de memória sem perder muita acurácia.
- Desempenho de 15 petaFLOPS NVFP4 (Ultra) em comparação com 10 petaFLOPS no Blackwell, representando ganho significativo na performance de workloads densos e esparsos.
- Aceleração de atenção: o throughput de SFU para instruções-chave de atenção é dobrado, mitigando gargalos em modelos com janelas de contexto longas.
- Memória: 288 GB de HBM3e por GPU, 3,6x mais memória on-package que a H100 e 50% a mais que o Blackwell, permitindo modelos com trilhões de parâmetros e janelas de contexto extensas.
- Conectividade: suporte a NVLink para comunicação GPU-GPU, NVLink-C2C para coerência com a CPU Grace e PCIe Gen 6 x16 para ligação com hosts.
- Integração de sistema: o Grace Blackwell Ultra Superchip (GB300 NVL72) acopla uma CPU Grace com dois GPUs Blackwell Ultra, oferecendo até 30 PFLOPS densos e 40 PFLOPS esparsos de compute NVFP4, com memória unificada de 1 TB (HBM3E + LPDDR5X) e rede 800 GB/s ConnectX-8.
Por que isso importa (impacto para desenvolvedores/empresas)
Blackwell Ultra representa uma mudança de patamar em eficiência operacional e throughput de IA para fábricas de IA de produção. A combinação de maior densidade de memória, precisão eficiente e throughput de atenção dobrado resulta em mais instâncias de modelo, respostas mais rápidas e custos por token mais baixos em inferência em larga escala. A memória de 288 GB por GPU facilita hospedar modelos com trilhões de parâmetros e janelas de contexto extensas, reduzindo a necessidade de offload de KV-cache. Para empresas que constroem serviços de IA, a arquitetura impacta dois indicadores-chave:
- Tokens por segundo por usuário (TPS/user): aceleração da softmax e do processamento de atenção reduz o tempo de resposta em inferência em tempo real.
- Tokens por segundo por megawatt (TPS/MW): maior memória disponível e movimento de dados mais eficiente elevam a eficiência do data center, permitindo mais trabalho por watt.
Detalhes técnicos ou Implementação
O design Blackwell Ultra centraliza a integração de dois dies via NV-HBI, fornecendo 10 TB/s de largura de banda entre eles. O chip possui 208B transistores na tecnologia TSMC 4NP, permitindo uma arquitetura de compute densa que permanece compatível com CUDA. Elementos arquitetônicos-chave:
- 160 SMs distribuídos em oito GPCs no GPU completo.
- Cada SM tem quatro Tensor Cores (640 no total) com NVFP4.
- 256 KB de TMEM por SM para manter dados junto aos compute units.
- MMA de dois blocos de threads: SMs pareados cooperam em operações MMA para reduzir tráfego de memória.
- NVFP4: formato de 4 bits com escala FP8/FP32 para quantização de IA com maior eficiência de memória.
- Desempenho NVFP4 de até 15 petaFLOPS no Ultra, comparado aos 10 petaFLOPS do Blackwell.
- Aceleração de atenção: SFUs com throughput dobrado para instruções-chave de atenção.
- Memória on-board de 288 GB HBM3e por GPU, com 1 TB de memória unificada possível (HBM3E + LPDDR5X).
- Interconexões: NVLink para GPU-GPU, NVLink-C2C para coherência com Grace, e PCIe Gen 6 x16 para hosts; redes ConnectX-8 atingem 800 GB/s em configuração de sistema.
- Implementação em rack: Grace Blackwell Ultra Superchip com duas GPUs Ultra, oferecendo até 30 PFLOPS densos e 40 PFLOPS esparsos, com 1 TB de memória unificada e conectividade em rede de alto desempenho.
Principais conclusões (takeaways)
- Blackwell Ultra une integração de dois dies, NV-HBI de alta largura de banda e memória maciça para IA em escala de fábrica.
- NVFP4 oferece precisão eficiente com footprint de memória menor, beneficiando inferência de IA de baixo custo.
- Aceleração de atenção e maior memória permitem modelos maiores com janela de contexto mais longa sem depender tanto de caches externos.
- A arquitetura melhora a eficiência energética de workloads de IA com maior throughput e menor latência de inferência.
- As opções de conectividade (NVLink, NVLink-C2C, PCIe Gen 6) suportam deployments de ponta a ponta, do host à GPU.
FAQ
-
Para que o Blackwell Ultra foi projetado?
Para acelerar treino e raciocínio de IA em serviços de AI em tempo real e em larga escala em fábricas de IA.
-
O que é NVFP4 e por que é importante?
NVFP4 é o formato de 4 bits com escalonamento FP8/FP32 que oferece quantização por hardware com alta acurácia e footprint de memória menor, melhorando a eficiência da inferência de IA.
-
uanto de memória há disponível por GPU?
288 GB de HBM3e por GPU, com memória unificada de até 1 TB quando combinada com LPDDR5X no arranjo de memória unificada.
-
uais interconexões são suportadas pelo Blackwell Ultra?
NVLink para GPU-GPU, NVLink-C2C para coerência com a CPU Grace e PCIe Gen 6 x16 para conectividade com hosts, com conectividade de rede ConnectX-8 de alto desempenho.
-
Como o desempenho do Ultra se compara às gerações anteriores?
Oferece até 15 petaFLOPS NVFP4 (contra 10 petaFLOPS no Blackwell) e throughput de atenção dobrado, acelerando cargas de trabalho com contextos extensos.
Referências
More news
NVIDIA HGX B200 reduz a Intensidade de Emissões de Carbono Incorporado
O HGX B200 da NVIDIA reduz 24% da intensidade de carbono incorporado em relação ao HGX H100, ao mesmo tempo em que aumenta o desempenho de IA e a eficiência energética. Esta análise resume os dados de PCF e as novidades de hardware.
Prever Eventos Climáticos Extremos em Minutos sem Supercomputador com Huge Ensembles (HENS)
NVIDIA e o Lawrence Berkeley National Laboratory apresentam Huge Ensembles (HENS), uma ferramenta de IA de código aberto que prevê eventos climáticos raros e de alto impacto usando 27.000 anos de dados, com opções de código aberto ou prontos para uso.
Playbook dos Grandmasters do Kaggle: 7 Técnicas de Modelagem Testadas para Dados Tabulares
Análise detalhada de sete técnicas testadas por Grandmasters do Kaggle para resolver grandes conjuntos de dados tabulares com aceleração por GPU, desde baselines diversificados até ensemble avançado e pseudo-rotulagem.
Como reduzir gargalos do KV Cache com NVIDIA Dynamo
O Dynamo da NVIDIA transfere o KV Cache da memória da GPU para armazenamento de custo mais baixo, permitindo janelas de contexto maiores, maior concorrência e menor custo de inferência em grandes modelos.
Microsoft transforma site da Foxconn no data center Fairwater AI, considerado o mais poderoso do mundo
A Microsoft divulga planos para um data center Fairwater AI de 1,2 milhão de pés quadrados no Wisconsin, com centenas de milhares de GPUs Nvidia GB200. projeto de US$ 3,3 bilhões promete treinamento de IA em escala sem precedentes.
NVIDIA RAPIDS 25.08 Adiciona Novo Profiler para cuML, Melhorias no Motor GPU Polars e Suporte Ampliado de Algoritmos
RAPIDS 25.08 traz profiladores function-level e line-level para cuml.accel, executor streaming padrão no motor GPU Polars, suporte ampliado de tipos e strings, novo Spectral Embedding no cuML e acelerações com zero código para mais algoritmos.