Entrena con conjuntos de datos de tamaño terabyte en un único NVIDIA Grace Hopper Superchip usando XGBoost 3.0

TL;DR

XGBoost 3.0 habilita el entrenamiento de TB-scale para árboles de decisión por gradiente (GBDT) en un único NVIDIA GH200 Grace Hopper Superchip usando External-Memory Quantile DMatrix.
El motor de memoria externa transmite datos desde la RAM de la máquina hacia la GPU a 900 GB/s a través de NVLink-C2C, lo que permite entrenar modelos de 1 TB en minutos y hasta 8x más rápido que un servidor CPU con 112 núcleos.
Esta aproximación reduce la necesidad de clústeres multi-GPU complejos y simplifica la escalabilidad para conjuntos de datos en escala TB.
RBC reporta hasta 16x de ganancia de rendimiento de punta a punta con GPUs y una reducción del 94% en el costo total de propiedad (TCO) para el entrenamiento de modelos.
Consejos prácticos: establecer grow_policy=‘depthwise’, iniciar pools de RAPIDS Memory Manager (RMM) al usar RAPIDS y operar con CUDA 12.8+ con un controlador HMM habilitado para Grace Hopper.

Contexto y antecedentes

Las árboles de decisión por gradiente (GBDT) siguen siendo una técnica fundamental para decisiones críticas, desde la detección de fraude hasta pronósticos de demanda a escala de petabytes. La biblioteca XGBoost, de código abierto, se ha destacado por su precisión, explicabilidad SHAP y flexibilidad para ejecutarse en laptops, nodos multi-GPU o clústeres Spark. La versión 3.0 de XGBoost sitúa la escalabilidad como objetivo principal, facilitando el entrenamiento a gran escala mediante rutas de datos eficientes. La familia Grace Hopper combina una CPU Grace con una GPU Hopper y se conecta mediante NVLink-C2C, ofreciendo alta ancho de banda y baja latencia entre CPU y GPU. Un único GH200 Grace Hopper Superchip es capaz de procesar conjuntos de datos desde gigabytes hasta 1 TB. La arquitectura de memoria coherente permite hacer streaming de los datos desde la RAM hasta la GPU, reduciendo la necesidad de clústeres distribuidos y facilitando la escalabilidad para cargas de trabajo TB-scale. Este artículo ofrece un análisis detallado de las capacidades de memoria externa y cómo XGBoost 3.0 aprovecha Grace Hopper para alcanzar la escala de 1 TB. XGBoost impulsa sistemas financieros críticos como la detección de fraudes, la predicción de riesgo crediticio y el trading algorítmico. RBC, una de las mayores instituciones bancarias del mundo, utiliza XGBoost para modernizar su pipeline de ML y gestionar afinado continuo en centenares de miles de registros. “Estamos seguros de que XGBoost, impulsado por GPUs de NVIDIA, hará posible nuestro modelo de lead scoring predictivo para los volúmenes de datos que proyectamos,” dijo Christopher Ortiz, Director de Gen AI Planning and Valuation en RBC. “Hemos visto hasta 16x de aceleración de extremo a extremo al aprovechar GPUs, y en nuestras pruebas de pipeline, hemos observado una reducción notable del 94% en el TCO para el entrenamiento de modelos. Esto representa un salto transformador en eficiencia y costo. Podemos optimizar características más rápido a medida que crecen nuestros datos.”

Novedades

XGBoost 3.0 introduce un tercer mecanismo para memoria externa mediante External-Memory Quantile DMatrix, que habilita el procesamiento de conjuntos de datos TB-scale en un único GH200 Grace Hopper Superchip. Esto complementa los métodos de histogramas GPU existentes que aceleraban el entrenamiento en GPUs, pero quedaban limitados por la memoria de la GPU. La memoria externa permite que el conjunto de datos permanezca en la RAM y el GPU realiza los cálculos y transmite los datos en cada iteración. Componentes clave de la nueva capacidad de memoria externa:

External Memory Quantile DMatrix, construido sobre los Data Iterators existentes para gestionar la memoria del conjunto de datos y utilizado como parámetro para el booster de XGBoost.
Comportamiento similar al QuantileDMatrix, pero aprovechando la lógica de cuantiles en un contexto de memoria externa.
En sistemas Grace Hopper, la CPU Grace de 72 núcleos y la GPU Hopper están conectadas por NVLink-C2C con un ancho de banda de 900 GB/s, con latencia muy inferior a la de PCIe Gen5.
El diseño aprovecha las fortalezas de las tablas densas en GPUs, la compresión reduce el tráfico del bus y los histogramas residen en la memoria compartida rápida. ExtMemQuantileDMatrix es sensible a la forma de los datos. Para comenzar a usar memoria externa en sistemas Grace, siga la Guía de Instalación de XGBoost y consulte la documentación de XGBoost para detalles de uso de memoria externa. Un único GH200 puede reemplazar servidores con gran consumo de RAM y pods multi-GPU en muchos escenarios, gracias a la anchura de banda NVLink-C2C de 900 GB/s.

Por qué importa (impacto para desarrolladores/empresas)

La capacidad de entrenar conjuntos de datos TB en un único GH200 Grace Hopper Superchip tiene varias implicaciones prácticas:

Reducción de complejidad de infraestructura: entrenar TB-scale en un solo chip integrado reduce la necesidad de clústeres multinodo complejos.
Tiempo de obtención de insights más rápido: con la anchura de banda de 900 GB/s y streaming de memoria externa, los modelos grandes pueden entrenarse en minutos, acelerando ciclos de experimentación y despliegue.
Eficiencia de costos: las experiencias de RBC muestran reducciones sustanciales en el TCO al usar GPUs para acelerar pipelines y una ruta de hardware más simple.
Compatibilidad con flujos de trabajo existentes: las capacidades de memoria externa conservan la API de XGBoost, reduciendo cambios en el pipeline incluso cuando los datos exceden la memoria de la GPU.
Acceso a ML a escala TB: este enfoque permite a los equipos trabajar con conjuntos de datos extremadamente grandes sin diseñar pipelines distribuidos costosos y fragiles. En resumen, la combinación de XGBoost 3.0 y Grace Hopper amplía el alcance práctico de cargas de trabajo GBDT para empresas, incluyendo detección de fraudes, puntuación de riesgo e ingeniería de características en volúmenes de datos en crecimiento.

Detalles técnicos o Implementación

La memoria externa en XGBoost 3.0 depende de External Memory Quantile DMatrix, que se construye sobre los Data Iterators para leer archivos del conjunto de datos. Detalles clave:

Los datos residen en la RAM y se transmiten a la GPU en cada iteración, permitiendo entrenar conjuntos TB-scale sin cargar todo en la memoria de la GPU.
ExtMemQuantileDMatrix utiliza la lógica de pre-binado de QuantileDMatrix, pero se apoya en un contexto de memoria externa para conservar los hiperparámetros y la precisión esperada.
Entrenar TB-scale en un único GH200 reemplaza servidores con gran demanda de RAM y pods multi-GPU gracias a la anchura de banda NVLink-C2C de 900 GB/s.
Especificaciones del GH200: 80 GB HBM3 + 480 GB LPDDR5X, conectados por 900 GB/s, ofreciendo equilibrio entre memoria y ancho de banda para cargas TB.
Guías prácticas: establecer grow_policy=‘depthwise’, iniciar siempre en un nuevo pool RMM al usar herramientas RAPIDS, y ejecutar CUDA 12.8+ con controlador HMM habilitado. Del lado del rendimiento, el objetivo de la memoria externa es permitir el entrenamiento GBDT TB-scale con el mismo API de XGBoost que ya conocen, enfatizando la pre-binación de datos, la gestión eficiente de memoria y el streaming hacia la GPU para maximizar el rendimiento, manteniendo la fidelidad del modelo. Para desarrolladores que buscan implementar u optimizar este flujo, la documentación de XGBoost y la Guía de Instalación ofrecen pasos concretos y configuraciones recomendadas. Las notas de la versión indican que las mejoras de la versión 3.0 orientan la memoria externa a convertirse en el enfoque por defecto cuando los datos superan la memoria de la GPU.

Puntos clave

Entrenamiento XGBoost en TB-scale posible en un solo GH200 Grace Hopper Superchip mediante External-Memory Quantile DMatrix.
El streaming de memoria a 900 GB/s a través de NVLink-C2C reduce la necesidad de clústeres y acelera cargas pesadas.
La API de XGBoost permanece estable, facilitando la adaptación de pipelines existentes a escalas mayores.
Casos prácticos como RBC demuestran mejoras de rendimiento y reducciones de costo significativas.
La gestión de memoria y consideraciones sobre el formato de datos y las versiones de software (CUDA 12.8+, driver HMM) son cruciales.

FAQ

Referencias

https://developer.nvidia.com/blog/train-with-terabyte-scale-datasets-on-a-single-nvidia-grace-hopper-superchip-using-xgboost-3-0

Entrena con conjuntos de datos de tamaño terabyte en un único NVIDIA Grace Hopper Superchip usando XGBoost 3.0

TL;DR

Contexto y antecedentes

Novedades

Por qué importa (impacto para desarrolladores/empresas)

Detalles técnicos o Implementación

Puntos clave

FAQ

Referencias

More news

NVIDIA HGX B200 reduce la intensidad de las emisiones de carbono incorporado

Predecir Eventos Climáticos Extremos en Minutos sin Supercomputadora: Huge Ensembles (HENS)

Cómo reducir cuellos de botella KV Cache con NVIDIA Dynamo

Microsoft transforma el sitio de Foxconn en el data center Fairwater AI, descrito como el más poderoso del mundo

Manual de los Grandmasters de Kaggle: 7 Técnicas de Modelado para Datos Tabulares

NVIDIA RAPIDS 25.08 Agrega Nuevo profiler para cuML, Mejoras en el motor GPU de Polars y Soporte Ampliado de Algoritmos