NVIDIA RAPIDS 25.08 Ajoute un Nouveau Profiler pour cuML, Améliorations du moteur GPU Polars et Support d’Algorithmes Étendu

TL;DR

RAPIDS 25.08 ajoute deux nouvelles options de profilage pour cuml.accel : un profiler au niveau fonction et un profiler au niveau ligne, avec des usages dans les notebooks et en ligne de commande pour comprendre l’exécution GPU vs CPU et les temps par fonction/ligne.
Le moteur GPU Polars utilise désormais l’exécution en streaming par défaut, permettant le traitement d’ensembles de données supérieurs à la mémoire GPU grâce au partitionnement, avec un repli sur la mémoire pour les opérations non supportées.
Le moteur Polars GPU bénéficie du support des données struct en colonnes, d’un ensemble étendu d’opérateurs sur les chaînes et d’un support élargi des types de données pour accélérer les flux de travail courants.
Spectral Embedding est ajouté à cuML pour la réduction de dimensionalité et l’apprentissage sur les graphes; cuml.accel accélère aussi plusieurs algorithmes sans changer le moindre code, notamment LinearSVC, LinearSVR et KernelRidge.
Le support CUDA 11 est abandonné dans la version 25.08; les utilisateurs nécessitant CUDA 11 peuvent fixer RAPIDS à la version 25.06.

Contexte et antécédents

RAPIDS continue d’accélérer et de mettre à l’échelle les flux de travail en science des données en élargissant les capacités accélérées par GPU et en réduisant les frictions pour les développeurs. La version 25.08 poursuit l’évolution en offrant une meilleure visibilité des performances via de nouveaux profils pour cuml.accel et en améliorant l’expérience utilisateur avec le moteur Polars GPU. Le streaming, introduit comme expérimental en 25.06, mûrit et devient le mode par défaut, reflétant la nécessité de traiter des ensembles de données plus importants que la mémoire VRAM. De plus, le support des types de données et des opérateurs dans Polars s’étend, notamment avec le support des structs dans les colonnes et un ensemble élargi d’opérateurs pour les chaînes. Spectral Embedding élargit l’éventail des outils du cuML pour l’apprentissage non supervisé et les tâches de réduction de dimension, tout en fournissant une API alignée sur celle de scikit-learn. Le délaissement de CUDA 11 souligne la transition vers des toolchains plus récents pour tirer parti des dernières avancées matérielles et logicielles.

Nouvelles fonctionnalités

Profiliers dans cuml.accel : profiler au niveau fonction et profiler au niveau ligne.
Exécution en streaming du Polars GPU : activée par défaut, permet de traiter des jeux de données plus grands que la mémoire GPU par partitionnement, avec un fallback en mémoire pour les opérations non supportées.
Types de données et opérateurs dans Polars : support des structs en colonnes et ensemble d’opérateurs sur les chaînes étendu.
Spectral Embedding dans cuML : nouvel algorithme pour la réduction dimensionnelle, API compatible avec scikit-learn.
Accélérations zéro-code pour de nouveaux algorithmes : LinearSVC, LinearSVR et KernelRidge ajoutés à cuml.accel; tous les estimateurs de la famille SVM sont pris en charge.
CUDA 11 : le support est abandonné; pour CUDA 11, fixez RAPIDS sur la version 25.06.

Pourquoi c’est important (impact pour les développeurs/entreprises)

Les profils intégrés aident les data scientists et les ingénieurs à identifier rapidement les goulets d’étranglement, accélérant l’optimisation des pipelines ML sans quitter l’environnement familier. L’exécution en streaming par défaut permet de traiter des ensembles de données dépassant la mémoire GPU, ouvrant la voie à des pipelines entièrement accélérés par GPU et à des gains de performance importants à mesure que les données augmentent. L’adjonction de Spectral Embedding apporte une option supplémentaire de réduction de dimensionnalité, et les accélérations zéro-code-change pour LinearSVC/LinearSVR/KernelRidge facilitent la migration vers RAPIDS 25.08 sans réécriture du code existant. La suppression du CUDA 11 est aussi un signal clair : les équipes doivent mettre à jour leurs chaînes d’outils et s’aligner sur des versions CUDA plus récentes pour continuer à bénéficier des optimisations et du support futur.

Détails techniques ou Implémentation

Profiliers dans cuml.accel :
Profiling au niveau fonction: montre les opérations sur GPU vs CPU et le temps par fonction.
Profiling au niveau ligne: montre le temps par ligne de code.
Utilisation : dans les notebooks, exécuter %%cuml.accel.profile après le chargement de cuml.accel; sur le CLI, utiliser l’option —profile. Le profiler au niveau ligne suit le même schéma avec %%cuml.accel.line_profile et —line-profile.
Streaming Polars GPU :
Défaut actif en 25.08, traitement des jeux de données supérieurs à la mémoire GPU par partitionnement.
Possibilité de fallback en mémoire RAM pour les opérations non supportées.
Support de types et opérateurs :
Données structurées en colonnes désormais accélérées par le GPU.
Ensemble étendu d’opérateurs sur les chaînes pour de meilleures performances.
Spectral Embedding :
Nouveau algorithme de réduction de dimensionnalité, API alignée sur scikit-learn.
Accélérations zéro-code pour algorithmes :
LinearSVC, LinearSVR et KernelRidge ajoutés à cuml.accel; toutes les estimations SVM sont désormais couvertes.
Compatibilité CUDA :
CUDA 11 retiré; fixer RAPIDS à 25.06 si CUDA 11 est nécessaire.

Points clés

Profils intégrés et détaillés pour le suivi des performances.
Streaming du Polars GPU pour la scalabilité mémoire-dépendante.
Support accru des struct et des chaînes.
Spectral Embedding et accélérations SVM sans modification de code.
Changement de compatibilité CUDA nécessitant une planification d’upgrade.

FAQ

- **Q : Quels sont les nouveaux profils pour cuml.accel ?**

Profilage au niveau fonction et profilage au niveau ligne. Le profilage fonctionnel montre les opérations GPU vs CPU et le temps par fonction; le profilage ligne montre le temps par ligne de code. Dans les notebooks, utilisez %%cuml.accel.profile; via le CLI, l’option --profile. Le profilage de ligne utilise %%cuml.accel.line_profile et --line-profile. - **Q : Que signifie l’exécution en streaming par défaut dans Polars GPU ?** **A :** Elle autorise le traitement de jeux de données plus volumineux que la mémoire GPU grâce au partitionnement, avec fallback en mémoire pour les opérations non supportées; près de toutes les opérations de l’exécution en mémoire GPU sont prises en charge. - **Q : Quels algorithmes bénéficient d’accélération zéro-code-change ?** **A :** LinearSVC, LinearSVR et KernelRidge; tous les estimateurs de la famille SVM sont pris en charge via cuml.accel. - **Q : CUDA 11 est-il encore pris en charge ?** **A :** Non; le support CUDA 11 a été retiré. Pour CUDA 11, fixez RAPIDS sur la version 25.06. - **Q : Spectral Embedding est-il identique à celui de scikit-learn ?** **A :** L’API Spectral Embedding dans cuML est alignée avec l’implémentation de scikit-learn.

Références

https://developer.nvidia.com/blog/nvidia-rapids-25-08-adds-new-profiler-for-cuml-updates-to-the-polars-gpu-engine-additional-algorithm-support-and-more/

NVIDIA RAPIDS 25.08 Ajoute un Nouveau Profiler pour cuML, Améliorations du moteur GPU Polars et Support d’Algorithmes Étendu

TL;DR

Contexte et antécédents

Nouvelles fonctionnalités

Pourquoi c’est important (impact pour les développeurs/entreprises)

Détails techniques ou Implémentation

Points clés

FAQ

Références

More news

NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé

Prévoir les phénomènes météorologiques extrêmes en quelques minutes sans superordinateur : Huge Ensembles (HENS)

Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo

Le Playbook des Grands Maîtres Kaggle: 7 Techniques de Modélisation pour Données Tabulaires

Microsoft transforme le site Foxconn en data center Fairwater AI, présenté comme le plus puissant au monde

Décodage spéculatif pour réduire la latence de l’inférence IA : EAGLE-3, MTP et approche Draft-Target