Dentro de NVIDIA Blackwell Ultra: el chip que impulsa la era de la fábrica de IA

TL;DR

NVIDIA Blackwell Ultra es el último miembro de la arquitectura Blackwell, diseñado para acelerar el entrenamiento y el razonamiento de IA en servicios en tiempo real a gran escala.
Utiliza un diseño de doble-die conectado por NV-HBI, con 10 TB/s de ancho de banda y un acelerador CUDA programable con 208 mil millones de transistores en un proceso TSMC 4NP.
El GPU tiene 160 SM distribuidos en ocho GPC, con cuatro Tensor Cores por SM (640 en total), optimizados para NVFP4 y 256 KB de TMEM por SM.
Blackwell Ultra ofrece hasta 15 petaFLOPS de NVFP4, 288 GB de HBM3e por GPU, memoria unificada de 1 TB y procesamiento de atención mejorado para modelos contextuales muy grandes.
Para implementaciones en centros de datos, Blackwell Ultra admite NVLink (GPU–GPU), NVLink-C2C (interoperabilidad con Grace CPU) y PCIe Gen 6 x16, con conectividad de red ConnectX-8 para fábricas de IA a gran escala.

Contexto e historia

La era de la fábrica de IA exige hardware que escale tanto en cómputo como en memoria con alta eficiencia. Blackwell Ultra se presenta como la culminación de innovaciones en silicio e integración a nivel de sistema para acelerar el entrenamiento y el razonamiento IA en servicios en tiempo real y a gran escala. El diseño emplea dos dies retículo-tamaño conectados por NV-HBI para proporcionar un camino de datos de alta velocidad (10 TB/s) entre los dies, manteniéndose como un acelerador CUDA-programable para los desarrolladores. Blackwell Ultra está fabricado por TSMC 4NP y contiene 208 mil millones de transistores—aproximadamente 2,6x más que el Hopper. El corazón del dispositivo se compone de 160 SMs organizados en ocho GPC. Cada SM ofrece la capacidad de cómputo necesaria para cargas de trabajo modernas de IA, incluida la aceleración de operaciones de atención que dominan los modelos basados en transformadores.

Novedades

Blackwell Ultra introduce avances arquitectónicos y de capacidad para aumentar el throughput, reducir la latencia y ampliar la memoria para los modelos IA más grandes:

Cores Tensor de quinta generación en todos los SM, con un segundo Transformer Engine para mayor throughput y menor latencia en workloads densos y dispersos de IA.
Cuatro Tensor Cores por SM (640 en total), actualizados para NVFP4.
256 KB de TMEM por SM para mantener los datos cerca de las unidades de cómputo y soportar MMA de doble bloque de hilos.
Precisión NVFP4: formato de 4 bits con escalado FP8/FP32 para cuantización por hardware con alta precisión y menor footprint de memoria.
Rendimiento NVFP4 de hasta 15 petaFLOPS (Ultra) frente a 10 petaFLOPS en Blackwell, aportando mejoras en workloads densos e inferencia a gran escala.
Aceleración de atención: el rendimiento SFU para instrucciones clave de atención se duplica, mitigando cuellos de botella en modelos con ventanas contextuales largas.
Memoria: 288 GB de HBM3e por GPU, 3,6x más memoria on‑chip que H100 y 50% más que Blackwell, permitiendo modelos con parámetros realmente grandes y ventanas de contexto extensas.
Conectividad: NVLink para comunicación GPU-GPU, NVLink-C2C para coherencia con Grace CPU y PCIe Gen 6 x16 para hosts; redes ConnectX-8 ofrecen alto rendimiento.
Implementación en sistema: Grace CPU + dos GPUs Blackwell Ultra, con hasta 30 PFLOPS densos y 40 PFLOPS dispersos en NVFP4, con 1 TB de memoria unificada y red de 800 GB/s ConnectX-8.

Por qué importa (impacto para desarrolladores/empresas)

Blackwell Ultra representa un salto en eficiencia operativa y throughput IA para fábricas de IA de producción. La combinación de mayor densidad de memoria, precisión eficiente y doble throughput de atención se traduce en más instancias de modelo, respuestas más rápidas y menores costos por token generado en inferencia a gran escala. La memoria de 288 GB por GPU facilita alojar modelos de trillones de parámetros y ventanas de contexto extensas sin depender tanto del KV-cache. Para empresas que implementan servicios de IA, la arquitectura impacta dos métricas clave:

Tokens por segundo por usuario (TPS/usuario): la aceleración del softmax y del procesamiento de atención reduce la latencia de inferencia en tiempo real.
Tokens por segundo por megavatio (TPS/MW): más memoria y movimientos de datos más eficientes mejoran la eficiencia del data center, permitiendo más trabajo por vatio.

Detalles técnicos o implementación

El diseño Blackwell Ultra se centra en la integración de dos dies mediante NV-HBI, proporcionando 10 TB/s de ancho de banda entre ellos. El chip contiene 208 mil millones de transistores en un proceso TSMC 4NP, permitiendo una arquitectura de cómputo densa que mantiene la compatibilidad con CUDA. Elementos clave:

160 SMs organizados en ocho GPCs.
Cada SM tiene cuatro Tensor Cores (640 en total) con NVFP4.
256 KB de TMEM por SM para mantener datos cerca de las unidades de cálculo.
MMA de doble bloque de hilos: SMs emparejados cooperan en una operación MMA para reducir el tráfico de memoria.
NVFP4: formato de 4 bits con escalado FP8/FP32 para cuantización eficiente con precisión cercana a FP8.
Rendimiento NVFP4 de hasta 15 petaFLOPS (Ultra) frente a 10 petaFLOPS en Blackwell.
Aceleración de atención: SFU con doble rendimiento para instrucciones de atención.
Memoria de 288 GB HBM3e por GPU y memoria unificada de hasta 1 TB en configuraciones adecuadas.
Interconexiones: NVLink para GPU-GPU, NVLink-C2C para coherencia con Grace, PCIe Gen 6 x16 para hosts; red ConnectX-8 a 800 GB/s.
Despliegue en rack: Grace CPU + dos GPUs Ultra, con 30 PFLOPS densos y 40 PFLOPS dispersos, 1 TB de memoria unificada y red de alto rendimiento.

Conclusiones clave

Blackwell Ultra combina integración de doble-die, NV-HBI y una memoria densa para IA en fábrica.
NVFP4 permite cuantización eficiente con altas tasas de precisión en inferencia de IA.
Aceleración de atención y mayor memoria permiten modelos más grandes y ventanas contextuales más largas sin depender excesivamente del KV-cache.
El diseño mejora la eficiencia energética y el throughput, con conectividad robusta para implementaciones completas desde host hasta GPU.
Las opciones NVLink, NVLink-C2C y PCIe Gen 6 soportan despliegues escalables desde una GPU hasta centros de datos de fábrica.

Preguntas frecuentes

Referencias

https://developer.nvidia.com/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era/

Dentro de NVIDIA Blackwell Ultra: el chip que impulsa la era de la fábrica de IA

TL;DR

Contexto e historia

Novedades

Por qué importa (impacto para desarrolladores/empresas)

Detalles técnicos o implementación

Conclusiones clave

Preguntas frecuentes

Referencias

More news

NVIDIA HGX B200 reduce la intensidad de las emisiones de carbono incorporado

Predecir Eventos Climáticos Extremos en Minutos sin Supercomputadora: Huge Ensembles (HENS)

Cómo reducir cuellos de botella KV Cache con NVIDIA Dynamo

Microsoft transforma el sitio de Foxconn en el data center Fairwater AI, descrito como el más poderoso del mundo

Manual de los Grandmasters de Kaggle: 7 Técnicas de Modelado para Datos Tabulares

NVIDIA RAPIDS 25.08 Agrega Nuevo profiler para cuML, Mejoras en el motor GPU de Polars y Soporte Ampliado de Algoritmos