Entraîner des ensembles de données de téraoctets sur une seule NVIDIA Grace Hopper avec XGBoost 3.0
Sources: https://developer.nvidia.com/blog/train-with-terabyte-scale-datasets-on-a-single-nvidia-grace-hopper-superchip-using-xgboost-3-0, developer.nvidia.com
TL;DR
- XGBoost 3.0 ouvre l’entraînement GBDT à l’échelle TB sur un seul NVIDIA GH200 Grace Hopper Superchip via External Memory Quantile DMatrix.
- L’architecture stream des données depuis la RAM de l’hôte vers le GPU via NVLink-C2C à 900 Go/s permet d’entraîner un modèle de 1 To en quelques minutes, jusqu’à 8x plus rapide qu’un système CPU à 112 cœurs.
- Cette approche réduit le besoin de clusters multi-GPU complexes et facilite l’évolutivité pour de très gros ensembles de données.
- RBC rapporte des bénéfices tangibles, dont des gains allant jusqu’à 16x en vitesse globale et une réduction d’environ 94% du coût total de possession (TCO) du entraînement.
- Le GH200 combine un CPU Grace de 72 cœurs et un GPU Hopper avec NVLink C2C, offrant une largeur de bande élevée et une mémoire suffisante pour les flux mémoire externes.
Contexte et antécédents
Les arbres de décision boostés par gradient (GBDT) forment une technique fondamentale qui alimente des applications, de la détection de fraude en temps réel aux prévisions de demande à l’échelle pétaoctets. XGBoost est la bibliothèque open source de choix pour les GBDT, grâce à sa précision, sa compatibilité SHAP pour l’explicabilité et sa flexibilité sur ordinateurs portables, nœuds multi-GPU ou clusters Spark. XGBoost 3.0 est conçue autour de la scalabilité comme boussole. Un jalon clé est la possibilité de traiter des données TB sur un seul GH200 Grace Hopper Superchip, tirant parti d’une architecture mémoire cohérente et d’un flux mémoire externe ultra-rapide. Cette évolution résout l’obstacle précédent qui exigeait des solutions distribuées pour les charges TB. Bien que la méthode d’histogramme sur GPU offre déjà des gains, le computing TB nécessitait des infrastructures distribuées. L’approche mémoire externe, renforcée par XGBoost 3.0, répond à ces défis tout en conservant l’API XGBoost et les hyperparamètres familiers. Pour plus de détails sur ces avancées, consultez l’article NVIDIA présentant XGBoost 3.0 et les nouveautés liées à la mémoire externe dans le contexte des GPU NVIDIA. NVIDIA Developer Blog.
Nouvelles fonctionnalités
XGBoost 3.0 introduit un troisième mécanisme pour la montée en puissance au-delà de la mémoire GPU: External Memory Quantile DMatrix. Construit sur les Data Iterators existants, ce composant gère la mémoire du dataset et effectue le streaming des données de la RAM de l’hôte vers le GPU à chaque itération. En pratique, vous pouvez configurer XGBoost pour entraîner sur des données de téraoctets sur une seule puce GH200 Grace Hopper, en utilisant les mêmes appels XGBoost que d’habitude. Le GH200 Grace Hopper Superchip associe un CPU Grace de 72 cœurs et un GPU Hopper, reliés par NVLink C2C, offrant environ 900 Go/s de bande passante bidirectionnelle. Cette bande passante, associée au streaming mémoire externe, permet d’entraîner sur 1 To sur un seul chip (par rapport à un serveur CPU consommant beaucoup de RAM ou à un cluster multi-GPU). Bien que les GPU excellent sur les tables denses grâce à une compression efficace et à une réduction du trafic bus, ExtMemQuantileDMatrix est sensible à la forme des données lorsque le dataset est maigre; le nombre de lignes peut devenir le facteur limitant pour tenir dans un seul GH200. Bonnes pratiques pour maximiser les performances : définir grow_policy=’depthwise’ pour construire les arbres couche par couche, démarrer toujours dans un pool RAPIDS Memory Manager (RMM) lorsqu’on utilise RAPIDS, et exécuter avec CUDA 12.8 ou supérieur avec un driver HMM activé pour Grace Hopper. En plus des améliorations de mémoire externe, XGBoost 3.0 apporte des améliorations de performances et des nettoyages d’API, avec pour objectif de rendre la mémoire externe le chemin par défaut lorsque les données dépassent la mémoire GPU. Points clés :
- XGBoost 3.0 permet un traitement TB-scale sur un seul GH200 Grace Hopper avec les appels XGBoost habituels.
- External Memory permet de gérer des données qui ne tiennent pas entièrement dans la mémoire GPU, tout en conservant l’API familière.
- L’architecture GH200 offre une bande passante élevée (900 Go/s) pour les flux de données entre CPU et GPU.
- Des cas réels, comme RBC, démontrent des gains notables en performance et des réductions de coût lors de la migration vers des pipelines XGBoost accélérés par GPU.
Pourquoi cela compte (impact pour les développeurs/entreprises)
Former des modèles sur des ensembles de données de téraoctets avec un seul GH200 réduit considérablement l’écart entre la croissance des données et la disponibilité de modèles prêts pour la production. L’association du streaming mémoire externe et de l’architecture Grace Hopper facilite l’entraînement sur des ensembles multi-terabytes sans infrastructures distribuées complexes, accélérant les cycles de prototypage et les mises à jour de modèles, et simplifiant les pipelines ML pour les gros volumes. La RBC, l’une des plus grandes banques au monde, exploite un système de scoring de leads qui nécessite rapidité, précision et explicabilité. Dans leurs tests, l’utilisation de XGBoost avec des GPUs NVIDIA a montré des gains jusqu’à 16x en vitesse et une réduction d’environ 94% du TCO du training, démontrant les bénéfices concrets de l’accélération GPU pour la modélisation financière à grande échelle et les décisions en temps réel.
Détails techniques ou Mise en œuvre
Le cœur technique est External Memory Quantile DMatrix, construit sur les Data Iterators existants, qui gère la mémoire du dataset et effectue le streaming de la RAM de l’hôte vers le GPU à chaque itération. Les données restent en RAM sur l’hôte et sont consommées par le GPU au besoin, tout en conservant la logique de pré-binning par quantile du QuantileDMatrix. Éléments matériels et logiciels clés :
- GH200 Grace Hopper Superchip : CPU Grace de 72 cœurs + GPU Hopper, connectés par NVLink C2C, ~900 Go/s de bande passante.
- Configuration mémoire : 80 Go HBM3 sur le GPU et 480 Go LPDDR5X dans le système, alimentés par le NVLink C2C.
- Flux de données : External Memory Quantile DMatrix stream les données de la RAM de l’hôte vers le GPU à chaque itération.
- Capacité TB-scale : jusqu’à 1 To de données sur un seul GH200, selon la forme des données.
| Élément | Détails |
|---|---|
| GH200 Grace Hopper Superchip | CPU Grace 72 cœurs + GPU Hopper, NVLink C2C, ~900 Go/s bande passante |
| Mémoire | 80 Go HBM3 + 480 Go LPDDR5X |
| Flux de données | External Memory Quantile DMatrix stream les données vers le GPU |
| Capacité TB-scale | Jusqu’à 1 To sur un seul GH200 |
| Pour prendre en main, consultez la documentation XGBoost et l’installation; ce billet explique aussi comment tirer parti de la mémoire externe dans les charges de travail réelles. L’objectif est de démocratiser l’évolutivité et de réduire la complexité par rapport à des pipelines distribués. |
Points clés à retenir
- XGBoost 3.0 permet un entraînement TB-scale sur un seul GH200 Grace Hopper avec mémoire externe, tout en conservant les appels XGBoost habituels.
- External Memory Quantile DMatrix permet de gérer des données qui ne tiennent pas entièrement dans la mémoire GPU, tout en conservant l’interface API connue.
- GH200 offre une bande passante élevée (900 Go/s) et un chemin efficace pour les workloads TB-scale GBDT.
- Des cas industriels, comme RBC, démontrent des gains de performance significatifs et des réductions de coût lors de l’adoption de pipelines XGBoost accélérés par GPU.
- La convergence entre améliorations logicielles et avancées matérielles rapproche la mémoire externe d’un chemin par défaut pour les données volumineuses.
FAQ
-
- **Q : Qu’est-ce que External Memory Quantile DMatrix ?**
C’est une structure de données basée sur les Data Iterators qui pré-binne les caractéristiques comme le ferait QuantileDMatrix, mais qui lit les données depuis la RAM de l’hôte et les transmet au GPU à chaque itération. - **Q : Quel matériel est nécessaire pour entraîner des TB sur un seul GH200 ?** **A :** Un GH200 Grace Hopper Superchip, avec CPU Grace de 72 cœurs et GPU Hopper connectés par NVLink C2C, ainsi que 80 Go HBM3 et 480 Go LPDDR5X. - **Q : Quelle taille de jeu de données peut-on viser sur un GH200 ?** **A :** Jusqu’à 1 To de données, selon la forme et la mémoire disponibles. - **Q : Comment se compare-t-on au CPU ?** **A :** L’entraînement XGBoost 3.0 sur GH200 avec mémoire externe peut offrir des gains substantiels de performance et de réduction de coût; RBC rapporte des gains jusqu’à 16x et une réduction d’environ 94% du TCO dans leurs tests. - **Q : Où puis-je en savoir plus et commencer ?** **A :** Téléchargez XGBoost 3.0 et consultez le Guide d’installation; reportez-vous au post NVIDIA pour les flux mémoire externe et les détails matériels. [NVIDIA Developer Blog](https://developer.nvidia.com/blog/train-with-terabyte-scale-datasets-on-a-single-nVIDIA-grace-hopper-superchip-using-xgboost-3-0).
Références
More news
NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé
Le HGX B200 de NVIDIA abaisse l’intensité des émissions de carbone incorporé de 24% par rapport au HGX H100, tout en offrant de meilleures performances IA et une efficacité énergétique accrue. Cet article résume les données PCF et les nouveautés matérielles.
Prévoir les phénomènes météorologiques extrêmes en quelques minutes sans superordinateur : Huge Ensembles (HENS)
NVIDIA et le Lawrence Berkeley National Laboratory présentent Huge Ensembles (HENS), un outil IA open source qui prévoit des événements météorologiques rares et à fort impact sur 27 000 années de données, avec des options open source ou prêtes à l’emploi.
Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo
NVIDIA Dynamo déporte le KV Cache depuis la mémoire GPU vers un stockage économique, permettant des contextes plus longs, une meilleure concurrence et des coûts d’inférence réduits pour les grands modèles et les charges AI génératives.
Le Playbook des Grands Maîtres Kaggle: 7 Techniques de Modélisation pour Données Tabulaires
Analyse approfondie de sept techniques éprouvées par les Grands Maîtres Kaggle pour résoudre rapidement des ensembles de données tabulaires à l’aide d’une accélération GPU, des baselines divers à l’assemblage et à la pseudo-étiquetage.
Microsoft transforme le site Foxconn en data center Fairwater AI, présenté comme le plus puissant au monde
Microsoft dévoile des plans pour un data center Fairwater AI de 1,2 million de mètres carrés au Wisconsin, abritant des centaines de milliers de GPU Nvidia GB200. Le projet de 3,3 milliards de dollars promet un entraînement IA sans précédent.
NVIDIA RAPIDS 25.08 Ajoute un Nouveau Profiler pour cuML, Améliorations du moteur GPU Polars et Support d’Algorithmes Étendu
RAPIDS 25.08 introduit deux profils pour cuml.accel (fonctionnel et ligne), l’exécuteur streaming par défaut du moteur Polars GPU, un support de types et chaînes étendu, Spectral Embedding dans cuML et des accélérations zéro-code pour plusieurs estimateurs.