Skip to content
Blackwell Ultra illustration.
Source: developer.nvidia.com

Dentro de NVIDIA Blackwell Ultra: el chip que impulsa la era de la fábrica de IA

Sources: https://developer.nvidia.com/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era, https://developer.nvidia.com/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era/, NVIDIA Dev Blog

Visión general

NVIDIA Blackwell Ultra representa el último miembro de la familia de arquitectura Blackwell, diseñado para acelerar el entrenamiento y el razonamiento en IA a gran escala. Fusiona innovaciones en silicio con una mayor integración a nivel de sistema, ofreciendo rendimiento, escalabilidad y eficiencia para fábricas de IA y los servicios de IA en tiempo real que impulsan. La eficiencia energética es una prioridad, con un diseño de doble retícula, una memoria de gran ancho de banda y gran capacidad (HBM3e), Tensor Cores de quinta generación y un formato de precisión NVFP4 de 4 bits. El objetivo es mantener la compatibilidad con CUDA, permitiendo que los desarrolladores aprovechen el ecosistema CUDA mientras obtienen mejoras medibles en el rendimiento para workloads densos y dispersos. Blackwell Ultra está compuesto por dos dies del tamaño de una retícula conectados mediante NV‑HBI, un interconector die‑to‑die, diseñado para ser eficiente y de alto rendimiento, que ofrece hasta 10 TB/s de ancho de banda. Fabricado en el proceso TSMC 4NP, Blackwell Ultra contiene 208 mil millones de transistores, aproximadamente 2,6× más que el Hopper (H100), y aun así funciona como un acelerador CUDA de programa único. La implementación completa alberga 160 Streaming Multiprocessors (SMs) organizados en ocho Graphics Processing Clusters (GPCs). Cada SM es una unidad de cálculo autónoma que incluye cuatro Tensor Cores, sumando 640 Tensor Cores en toda la GPU. Estos han sido actualizados para soportar la nueva precisión NVFP4 y las capacidades de la quinta generación de Tensor Cores. Cada SM viene acompañada de 256 KB de Tensor Memory (TMEM) para mantener los operandos cerca de las unidades de cálculo y reducir el tráfico de memoria. La plataforma también soporta MMA de doble hilo, permitiendo que SMs emparejados cooperen en una operación MMA y compartan operandos, reduciendo el tráfico de memoria y mejorando la eficiencia. NVFP4 es el formato de punto flotante de 4 bits de NVIDIA que combina una escala micro‑block FP8 (aplicada a bloques de 16 valores) con una escala FP32 a nivel tensor. Este formato permite cuantización acelerada por hardware con tasas de error notablemente menores que el FP4 tradicional. En la práctica, NVFP4 puede proporcionar precisión cercana a FP8 en muchas cargas de IA mientras reduce la huella de memoria en aproximadamente 1,8× frente a FP8 y hasta ~3,5× frente a FP16. La capacidad de cómputo NVFP4 en Blackwell Ultra ofrece un incremento sustancial de rendimiento y eficiencia de memoria, especialmente útil para inferencia de baja precisión y pre‑entrenamiento con grandes lotes. La variante Ultra eleva el rendimiento de NVFP4 a alrededor de 15 petaFLOPS, frente a ~10 petaFLOPS para el Blackwell base. La arquitectura continúa siendo compatible con CUDA, garantizando que los desarrolladores puedan utilizar el ecosistema CUDA y beneficiarse de mayores throughput y capacidad de memoria. Blackwell Ultra incluye 288 GB de memoria HBM3e por GPU, una capacidad que es 3,6× mayor que la memoria embarcada del H100 y aproximadamente 50% mayor que la de Blackwell, diseñada para alojar modelos con trillones de parámetros, ampliar ventanas de contexto y permitir inferencia de alta concurrencia sin offloading intensivo de KV‑cache. Más allá del cálculo, la arquitectura introduce motores especializados para cargas modernas de IA que procesan datos multimodales. Transformer Engine de quinta generación y Tensor Cores de quinta generación proporcionan mayor throughput y menor latencia para workloads densos y dispersos. El procesamiento de la atención, crítico para transformers con largas ventanas de contexto, se beneficia de un SFU con el doble de rendimiento para instrucciones clave de atención, permitiendo una inferencia de atención hasta 2× más rápida que en Blackwell. Cuando estos aumentos de rendimiento se combinan con la precisión NVFP4 y la mayor memoria, los resultados se traducen en mejoras en la inferencia a gran escala y workloads multimodelo. Una característica distintiva de Blackwell Ultra es su memoria integrada y su estrategia de interconexión. Cada GPU dispone de 288 GB de HBM3e, permitiendo porciones de modelo más grandes y ventanas de contexto más largas dentro de un único dispositivo. La plataforma admite NVLink de quinta generación para comunicación entre GPUs, NVLink‑C2C para una interconexión coherente con una NVIDIA Grace CPU y una interfaz PCIe Gen 6 x16 para la conectividad con el host. La combinación de interconectividad, memoria y cómputo permite dimensionar infraestructuras de fábrica de IA y conectarse con el ecosistema Grace de NVIDIA, facilitando el movimiento de datos de alto rendimiento con baja latencia entre los componentes. En el panorama del sistema, Blackwell Ultra está concebido como la columna vertebral de las arquitecturas de fábrica de IA de próxima generación. En configuraciones Grace‑Blackwell Ultra, un único Grace CPU puede emparejarse con dos GPUs Blackwell Ultra mediante NVLink‑C2C, ofreciendo hasta 30 PFLOPS de cómputo denso y 40 PFLOPS de cómputo disperso NVFP4. Este Superchip puede integrarse en el sistema de rack GB300 NVL72, con 1 TB de memoria unificada combinando HBM3e y LPDDR5X para una capacidad on‑node sin precedentes. ConnectX‑8 SuperNICs aporta 800 GB/s de conectividad de red, permitiendo flujos de datos rápidos hacia clústeres vecinos. Blackwell Ultra mantiene la compatibilidad con el ecosistema CUDA, mientras introduce optimizaciones para marcos de IA de próxima generación. Los desarrolladores pueden seguir escribiendo código CUDA programable, aprovechando motores de aceleración de IA dedicados y el Transformer Engine de segunda generación para cargas densas y dispersas. NVIDIA también destaca la disponibilidad de un briefing técnico que mapea las características del silicio a resultados a nivel de sistema, ofreciendo una visión detallada de la historia silicio‑a‑sistema. Detalles y contexto están disponibles en: https://developer.nvidia.com/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era/. En resumen, Blackwell Ultra ofrece una ruta pragmática y escalable para implementaciones de fábricas de IA: cómputo sólido, memoria on‑package masiva e interconexiones de alto rendimiento que reducen la latencia y aumentan el throughput por vatio para cargas de IA en producción. La compatibilidad con CUDA garantiza una transición fluida desde flujos de trabajo existentes, mientras que los avances en silicio y arquitectura permiten entrenar e inferir a gran escala en entornos de producción. NVIDIA señala la disponibilidad de materiales técnicos para un examen más profundo de la historia silicio‑a‑sistema y el ecosistema para Blackwell Ultra. Referencias y materiales adicionales están disponibles en el NVIDIA Dev Blog enlazado arriba. Notas: el contenido sintetizado proviene de la descripción oficial de NVIDIA sobre Blackwell Ultra, con énfasis en la integración de doble dado, aceleración NVFP4, memoria masiva e innovaciones de interconexión para fábricas de IA. Se recomienda consultar el post de NVIDIA para ampliar los detalles.

More resources