Dentro do NVIDIA Blackwell Ultra: o chip que impulsiona a era da fábrica de IA

Visão geral

O NVIDIA Blackwell Ultra representa o membro mais recente da família de arquitetura Blackwell, projetado para acelerar treinamento e raciocínio de IA em escala. Ele funde inovações em silício com maior integração em nível de sistema para oferecer desempenho, escalabilidade e eficiência para fábricas de IA e os serviços de IA em tempo real que elas alimentam. A ênfase está na eficiência energética com um design de dupla retícula, memória de alta largura de banda e grande capacidade (HBM3e), Tensor Cores de quinta geração e um formato de precisão NVFP4 de 4 bits inovador. A proposta é manter a compatibilidade com CUDA, permitindo que os desenvolvedores aproveitem o ecossistema CUDA enquanto obtêm ganhos mensuráveis de throughput para workloads densos e esparsos. O Ultra é composto por dois dies de tamanho de retícula ligados por NV‑HBI, um interconector die‑to‑die proprietário e de baixo consumo, que oferece até 10 TB/s de largura de banda. Fabricado no processo TSMC 4NP, o Blackwell Ultra contém 208 bilhões de transistores — cerca de 2,6× a mais que o Hopper (H100) da NVIDIA — ainda operando como um acelerador CUDA‑programável único. A implementação completa abriga 160 Streaming Multiprocessors (SMs) organizados em oito Graphics Processing Clusters (GPCs). Cada SM é uma unidade de computação autônoma que inclui quatro Tensor Cores, somando 640 Tensor Cores no chip, atualizados para suportar a nova precisão NVFP4 e as capacidades da quinta geração de Tensor Cores. Cada SM acompanha 256 KB de Tensor Memory (TMEM), projetado para manter operandos próximos aos unidades de computação e reduzir o tráfego de memória. A plataforma também suporta MMA em duplo‑thread, permitindo que SMs emparelhados cooperem em uma única operação MMA e compartilhem operandos, melhorando eficiência de memória. NVFP4 é o formato de ponto flutuante de 4 bits da NVIDIA que combina uma escala micro‑block FP8 (aplicada a blocos de 16 valores) com uma escala FP32 de nível tensor. Esse formato habilita quantização acelerada por hardware com taxas de erro significativamente menores que o FP4 convencional. Na prática, NVFP4 pode oferecer precisão próxima ao FP8 em muitos workloads de IA, ao mesmo tempo em que reduz a pegada de memória em cerca de 1,8× em relação ao FP8 e até ~3,5× frente ao FP16. A capacidade de cálculo com NVFP4 no Blackwell Ultra proporciona um ganho substancial de desempenho e eficiência de memória, especialmente para inferência de baixa precisão e pré‑treinamento em grandes lotes. A variante Ultra leva o desempenho do NVFP4 a cerca de 15 petaFLOPS, contra aproximadamente 10 petaFLOPS no Blackwell básico. A arquitetura mantém o modelo de programação CUDA, assegurando que os desenvolvedores possam aproveitar o ecossistema CUDA e os seus recursos avançados, como o Transformer Engine. O Blackwell Ultra inclui 288 GB de memória HBM3e por GPU — um incremento que é 3,6× maior do que a memória embarcada do H100 e cerca de 50% maior do que a memória do Blackwell — projetada para abrigar modelos com trilhões de parâmetros, estender janelas de contexto e permitir inferência de alta simultaneidade sem offload intensivo de KV‑cache. Além do compute, a arquitetura introduz motores especializados para cargas de IA modernas que processam dados multimodais. O Transformer Engine de quinta geração e os Tensor Cores de quinta geração oferecem maior throughput e menor latência para workloads densos e esparsos. O processamento de attention, crítico para transformadores com janelas de contexto longas, recebe otimizações dedicadas: o throughput do SFU dobrado para instruções chave de attention, gerando até 2× de velocidade na compute de camadas de atenção em relação ao Blackwell. Quando esses ganhos de desempenho se combinam com a precisão NVFP4 e a memória ampliada, os resultados se traduzem em ganhos de desempenho para inferência de grande escala e workloads multimodelos, aumentando tokens por segundo por usuário e melhorando a eficiência energética por token. Um diferencial do Blackwell Ultra é a capacidade de memória por on‑package e a estratégia de interconexão. Cada GPU possui 288 GB de HBM3e, permitindo partições maiores do modelo e janelas de contexto mais longas em um único dispositivo. A plataforma oferece NVLink de quinta geração para comunicação entre GPUs, NVLink‑C2C para interconexão coerente com a CPU Grace e uma interface PCIe Gen 6 de 16 vias para conectividade com o host. A combinação de interconectividade, memória e compute permite dimensionar infraestruturas de fábrica de IA, conectando‑se ao ecossistema Grace da NVIDIA e viabilizando movimentação de dados de alto desempenho com baixa latência entre componentes. No panorama do sistema, o Blackwell Ultra está posicionado para atuar como o coração de arquiteturas de fábrica de IA. Em configurações com o Grace‑Blackwell Ultra, um único Grace CPU pode ser emparelhado com duas GPUs Blackwell Ultra via NVLink‑C2C, entregando até 30 PFLOPS de compute denso e 40 PFLOPS de compute esparso NVFP4. Esse Superchip pode ser integrado ao sistema de rack GB300 NVL72, com 1 TB de memória unificada combinando HBM3e e LPDDR5X para capacidade on‑node sem precedentes. ConnectX‑8 SuperNICs oferece 800 GB/s de conectividade de rede, viabilizando fluxo de dados rápido para clusters adjacentes. O Blackwell Ultra mantém a compatibilidade com o ecossistema CUDA, ao mesmo tempo em que introduz otimizados recursos para frameworks de IA de próxima geração. Os desenvolvedores podem continuar a escrever código CUDA programável, enquanto aproveitam os mecanismos de aceleração de IA por meio de motores especializados de IA, como o Transformer Engine de segunda geração, além de interfaces de alta velocidade para inovações de IA. NVIDIA também destaca a disponibilidade de um briefing técnico que mapeia recursos de silício para resultados de sistema, oferecendo uma visão completa da história silício‑para‑sistema. Detalhes podem ser encontrados em: https://developer.nvidia.com/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era/. Em resumo, o Blackwell Ultra oferece um caminho prático e escalável para implantações de fábrica de IA: compute robusto, memória on‑chip abundante e interconexões de alto desempenho que reduzem latência e aumentam o throughput por watt em cenários de IA industrial. A compatibilidade com CUDA facilita a transição de workloads existentes, ao mesmo tempo em que os avanços de silício e arquitetura permitem acelerar treinamento e inferência em produção em larga escala. Para avaliadores de infraestrutura de IA, o Blackwell Ultra representa um conjunto coerente de capacidades para reduzir o custo total de propriedade de grandes implantações, ao mesmo tempo em que viabiliza workloads de IA mais ambiciosos. Detalhes adicionais sobre o silício e o ecossistema estão disponíveis no post da NVIDIA, com o link citado acima. Notas: o conteúdo apresentado aqui é baseado na descrição oficial da NVIDIA sobre o Blackwell Ultra, com foco em integração de dupla die, aceleração NVFP4, memória massiva e inovações de interconexão para fábricas de IA. Conteúdos adicionais podem ser explorados no NVIDIA Dev Blog indicado.

Dentro do NVIDIA Blackwell Ultra: o chip que impulsiona a era da fábrica de IA

Visão geral

More resources

CUDA Toolkit 13.0 para Jetson Thor: Ecossistema Unificado de Arm e Mais

Reduzir Custos de Implantação de Modelos Mantendo Desempenho com Swap de Memória de GPU

Aprimorando a auto-tunagem de GEMM com nvMatmulHeuristics no CUTLASS 4.2

Deixe os ZeroGPU Spaces mais rápidos com compilação ahead-of-time (AoT) do PyTorch

Fine-Tuning gpt-oss para Precisão e Desempenho com Treinamento de Quantização (QAT)

Como Modelos de Linguagem Pequenos são a Chave para IA Agentica Escalável