Entrena con conjuntos de datos de tamaño terabyte en un único NVIDIA Grace Hopper Superchip usando XGBoost 3.0
Sources: https://developer.nvidia.com/blog/train-with-terabyte-scale-datasets-on-a-single-nvidia-grace-hopper-superchip-using-xgboost-3-0, developer.nvidia.com
TL;DR
- XGBoost 3.0 habilita el entrenamiento de TB-scale para árboles de decisión por gradiente (GBDT) en un único NVIDIA GH200 Grace Hopper Superchip usando External-Memory Quantile DMatrix.
- El motor de memoria externa transmite datos desde la RAM de la máquina hacia la GPU a 900 GB/s a través de NVLink-C2C, lo que permite entrenar modelos de 1 TB en minutos y hasta 8x más rápido que un servidor CPU con 112 núcleos.
- Esta aproximación reduce la necesidad de clústeres multi-GPU complejos y simplifica la escalabilidad para conjuntos de datos en escala TB.
- RBC reporta hasta 16x de ganancia de rendimiento de punta a punta con GPUs y una reducción del 94% en el costo total de propiedad (TCO) para el entrenamiento de modelos.
- Consejos prácticos: establecer grow_policy=‘depthwise’, iniciar pools de RAPIDS Memory Manager (RMM) al usar RAPIDS y operar con CUDA 12.8+ con un controlador HMM habilitado para Grace Hopper.
Contexto y antecedentes
Las árboles de decisión por gradiente (GBDT) siguen siendo una técnica fundamental para decisiones críticas, desde la detección de fraude hasta pronósticos de demanda a escala de petabytes. La biblioteca XGBoost, de código abierto, se ha destacado por su precisión, explicabilidad SHAP y flexibilidad para ejecutarse en laptops, nodos multi-GPU o clústeres Spark. La versión 3.0 de XGBoost sitúa la escalabilidad como objetivo principal, facilitando el entrenamiento a gran escala mediante rutas de datos eficientes. La familia Grace Hopper combina una CPU Grace con una GPU Hopper y se conecta mediante NVLink-C2C, ofreciendo alta ancho de banda y baja latencia entre CPU y GPU. Un único GH200 Grace Hopper Superchip es capaz de procesar conjuntos de datos desde gigabytes hasta 1 TB. La arquitectura de memoria coherente permite hacer streaming de los datos desde la RAM hasta la GPU, reduciendo la necesidad de clústeres distribuidos y facilitando la escalabilidad para cargas de trabajo TB-scale. Este artículo ofrece un análisis detallado de las capacidades de memoria externa y cómo XGBoost 3.0 aprovecha Grace Hopper para alcanzar la escala de 1 TB. XGBoost impulsa sistemas financieros críticos como la detección de fraudes, la predicción de riesgo crediticio y el trading algorítmico. RBC, una de las mayores instituciones bancarias del mundo, utiliza XGBoost para modernizar su pipeline de ML y gestionar afinado continuo en centenares de miles de registros. “Estamos seguros de que XGBoost, impulsado por GPUs de NVIDIA, hará posible nuestro modelo de lead scoring predictivo para los volúmenes de datos que proyectamos,” dijo Christopher Ortiz, Director de Gen AI Planning and Valuation en RBC. “Hemos visto hasta 16x de aceleración de extremo a extremo al aprovechar GPUs, y en nuestras pruebas de pipeline, hemos observado una reducción notable del 94% en el TCO para el entrenamiento de modelos. Esto representa un salto transformador en eficiencia y costo. Podemos optimizar características más rápido a medida que crecen nuestros datos.”
Novedades
XGBoost 3.0 introduce un tercer mecanismo para memoria externa mediante External-Memory Quantile DMatrix, que habilita el procesamiento de conjuntos de datos TB-scale en un único GH200 Grace Hopper Superchip. Esto complementa los métodos de histogramas GPU existentes que aceleraban el entrenamiento en GPUs, pero quedaban limitados por la memoria de la GPU. La memoria externa permite que el conjunto de datos permanezca en la RAM y el GPU realiza los cálculos y transmite los datos en cada iteración. Componentes clave de la nueva capacidad de memoria externa:
- External Memory Quantile DMatrix, construido sobre los Data Iterators existentes para gestionar la memoria del conjunto de datos y utilizado como parámetro para el booster de XGBoost.
- Comportamiento similar al QuantileDMatrix, pero aprovechando la lógica de cuantiles en un contexto de memoria externa.
- En sistemas Grace Hopper, la CPU Grace de 72 núcleos y la GPU Hopper están conectadas por NVLink-C2C con un ancho de banda de 900 GB/s, con latencia muy inferior a la de PCIe Gen5.
- El diseño aprovecha las fortalezas de las tablas densas en GPUs, la compresión reduce el tráfico del bus y los histogramas residen en la memoria compartida rápida. ExtMemQuantileDMatrix es sensible a la forma de los datos. Para comenzar a usar memoria externa en sistemas Grace, siga la Guía de Instalación de XGBoost y consulte la documentación de XGBoost para detalles de uso de memoria externa. Un único GH200 puede reemplazar servidores con gran consumo de RAM y pods multi-GPU en muchos escenarios, gracias a la anchura de banda NVLink-C2C de 900 GB/s.
Por qué importa (impacto para desarrolladores/empresas)
La capacidad de entrenar conjuntos de datos TB en un único GH200 Grace Hopper Superchip tiene varias implicaciones prácticas:
- Reducción de complejidad de infraestructura: entrenar TB-scale en un solo chip integrado reduce la necesidad de clústeres multinodo complejos.
- Tiempo de obtención de insights más rápido: con la anchura de banda de 900 GB/s y streaming de memoria externa, los modelos grandes pueden entrenarse en minutos, acelerando ciclos de experimentación y despliegue.
- Eficiencia de costos: las experiencias de RBC muestran reducciones sustanciales en el TCO al usar GPUs para acelerar pipelines y una ruta de hardware más simple.
- Compatibilidad con flujos de trabajo existentes: las capacidades de memoria externa conservan la API de XGBoost, reduciendo cambios en el pipeline incluso cuando los datos exceden la memoria de la GPU.
- Acceso a ML a escala TB: este enfoque permite a los equipos trabajar con conjuntos de datos extremadamente grandes sin diseñar pipelines distribuidos costosos y fragiles. En resumen, la combinación de XGBoost 3.0 y Grace Hopper amplía el alcance práctico de cargas de trabajo GBDT para empresas, incluyendo detección de fraudes, puntuación de riesgo e ingeniería de características en volúmenes de datos en crecimiento.
Detalles técnicos o Implementación
La memoria externa en XGBoost 3.0 depende de External Memory Quantile DMatrix, que se construye sobre los Data Iterators para leer archivos del conjunto de datos. Detalles clave:
- Los datos residen en la RAM y se transmiten a la GPU en cada iteración, permitiendo entrenar conjuntos TB-scale sin cargar todo en la memoria de la GPU.
- ExtMemQuantileDMatrix utiliza la lógica de pre-binado de QuantileDMatrix, pero se apoya en un contexto de memoria externa para conservar los hiperparámetros y la precisión esperada.
- Entrenar TB-scale en un único GH200 reemplaza servidores con gran demanda de RAM y pods multi-GPU gracias a la anchura de banda NVLink-C2C de 900 GB/s.
- Especificaciones del GH200: 80 GB HBM3 + 480 GB LPDDR5X, conectados por 900 GB/s, ofreciendo equilibrio entre memoria y ancho de banda para cargas TB.
- Guías prácticas: establecer grow_policy=‘depthwise’, iniciar siempre en un nuevo pool RMM al usar herramientas RAPIDS, y ejecutar CUDA 12.8+ con controlador HMM habilitado. Del lado del rendimiento, el objetivo de la memoria externa es permitir el entrenamiento GBDT TB-scale con el mismo API de XGBoost que ya conocen, enfatizando la pre-binación de datos, la gestión eficiente de memoria y el streaming hacia la GPU para maximizar el rendimiento, manteniendo la fidelidad del modelo. Para desarrolladores que buscan implementar u optimizar este flujo, la documentación de XGBoost y la Guía de Instalación ofrecen pasos concretos y configuraciones recomendadas. Las notas de la versión indican que las mejoras de la versión 3.0 orientan la memoria externa a convertirse en el enfoque por defecto cuando los datos superan la memoria de la GPU.
Puntos clave
- Entrenamiento XGBoost en TB-scale posible en un solo GH200 Grace Hopper Superchip mediante External-Memory Quantile DMatrix.
- El streaming de memoria a 900 GB/s a través de NVLink-C2C reduce la necesidad de clústeres y acelera cargas pesadas.
- La API de XGBoost permanece estable, facilitando la adaptación de pipelines existentes a escalas mayores.
- Casos prácticos como RBC demuestran mejoras de rendimiento y reducciones de costo significativas.
- La gestión de memoria y consideraciones sobre el formato de datos y las versiones de software (CUDA 12.8+, driver HMM) son cruciales.
FAQ
Referencias
More news
NVIDIA HGX B200 reduce la intensidad de las emisiones de carbono incorporado
El HGX B200 de NVIDIA reduce la intensidad de carbono incorporado en un 24% frente al HGX H100, al tiempo que ofrece mayor rendimiento de IA y eficiencia energética. Este artículo resume los datos PCF y las novedades de hardware.
Predecir Eventos Climáticos Extremos en Minutos sin Supercomputadora: Huge Ensembles (HENS)
NVIDIA y Berkeley Lab presentan Huge Ensembles (HENS), una herramienta de IA de código abierto que pronostica eventos climáticos raros y de alto impacto usando 27,000 años de datos, con opciones de código abierto o listas para usar.
Cómo reducir cuellos de botella KV Cache con NVIDIA Dynamo
NVIDIA Dynamo offloads KV Cache desde la memoria de la GPU hacia almacenamiento económico, habilitando contextos más largos, mayor concurrencia y costos de inferencia más bajos para grandes modelos y cargas de IA generativa.
Microsoft transforma el sitio de Foxconn en el data center Fairwater AI, descrito como el más poderoso del mundo
Microsoft anuncia planes para un data center Fairwater AI de 1,2 millones de pies cuadrados en Wisconsin, con cientos de miles de GPU Nvidia GB200. El proyecto de 3.3 mil millones de dólares promete un entrenamiento de IA sin precedentes.
Manual de los Grandmasters de Kaggle: 7 Técnicas de Modelado para Datos Tabulares
Un análisis detallado de siete técnicas probadas por los Grandmasters de Kaggle para resolver rápidamente conjuntos de datos tabulares mediante aceleración por GPU, desde baselines variados hasta ensamblaje y pseudo-etiquetado.
NVIDIA RAPIDS 25.08 Agrega Nuevo profiler para cuML, Mejoras en el motor GPU de Polars y Soporte Ampliado de Algoritmos
RAPIDS 25.08 introduce perfiles de nivel de función y de línea para cuml.accel, el ejecutor de streaming por defecto del motor Polars GPU, soporte ampliado de tipos y cadenas, Spectral Embedding en cuML y aceleraciones de cero código para varios estimadores.