NVIDIA RAPIDS 25.08 Agrega Nuevo profiler para cuML, Mejoras en el motor GPU de Polars y Soporte Ampliado de Algoritmos
Sources: https://developer.nvidia.com/blog/nvidia-rapids-25-08-adds-new-profiler-for-cuml-updates-to-the-polars-gpu-engine-additional-algorithm-support-and-more, https://developer.nvidia.com/blog/nvidia-rapids-25-08-adds-new-profiler-for-cuml-updates-to-the-polars-gpu-engine-additional-algorithm-support-and-more/, NVIDIA Dev Blog
TL;DR
- RAPIDS 25.08 añade dos nuevas opciones de perfilado para cuml.accel: un profiler a nivel de función y un profiler a nivel de línea, con uso en cuadernos y en la CLI para entender la ejecución GPU vs CPU y los tiempos por función y por línea.
- El motor GPU de Polars utiliza ya el modo streaming como predeterminado, permitiendo el procesamiento de conjuntos de datos más grandes que la memoria de la GPU mediante particionamiento, con fallback a memoria si una operación no está soportada.
- El motor Polars GPU ahora soporta datos estructurados en columnas, con un conjunto ampliado de operadores para cadenas y un mayor soporte de tipos de datos para acelerar flujos de trabajo comunes.
- Spectral Embedding llega a cuML para reducción de dimensionalidad y aprendizaje en grafos; cuml.accel acelera varios algoritmos con cero cambios de código, incluido LinearSVC, LinearSVR y KernelRidge.
- CUDA 11 se ha eliminado de soporte en esta versión; los usuarios que necesiten CUDA 11 pueden fijar RAPIDS en la versión 25.06.
Contexto y antecedentes
RAPIDS continúa su misión de acelerar y escalar flujos de ciencia de datos ampliando las capacidades aceleradas por GPU y reduciendo las fricciones para los desarrolladores. La versión 25.08 continúa la trayectoria de mejorar la visibilidad de rendimiento mediante perfiles para cuml.accel y amplía la experiencia del usuario con el motor GPU de Polars. La ejecución en streaming, introducida como experimental en 25.06, madura y pasa a ser el modo por defecto, reflejando la necesidad de manejar conjuntos de datos mayores que la memoria VRAM. Además, se amplía el soporte de tipos de datos y operadores en Polars, destacando el soporte para datos estructurados en columnas y un conjunto ampliado de operadores para cadenas. Spectral Embedding amplía las capacidades de cuML para aprendizaje de representaciones y reducción de dimensionalidad, manteniendo una API similar a la de scikit-learn. La descontinuación de CUDA 11 señala la necesidad de migrar a toolchains más modernos para obtener mejoras y un soporte continuo.
Novedades
- Profiler en cuml.accel:
- Profiling a nivel de función y a nivel de línea.
- Uso en notebooks con %%cuml.accel.profile o %%cuml.accel.line_profile; en la CLI, con —profile y —line-profile.
- Streaming del Polars GPU:
- Ahora es el modo por defecto, permitiendo manejar datasets por encima de la memoria de la GPU mediante particionamiento.
- Puede caer de vuelta a memoria si alguna operación no está soportada.
- Soporte de tipos y operadores en Polars:
- Datos estructurados en columnas ahora acelerados en GPU.
- Ampliación de operadores para cadenas para mejorar el rendimiento.
- Spectral Embedding en cuML:
- Nuevo algoritmo para reducción de dimensionalidad con API compatible con scikit-learn.
- Aceleraciones sin cambio de código para más algoritmos:
- LinearSVC, LinearSVR y KernelRidge disponibles en cuml.accel; todos los estimadores de la familia SVM están soportados.
- CUDA 11:
- Eliminado; si necesitas CUDA 11, fija RAPIDS en la versión 25.06.
Por qué importa (impacto para desarrolladores/empresas)
La visibilidad de profiling integrada permite a científicos de datos e ingenieros identificar cuellos de botella en pipelines de ML, acelerando iteraciones sin abandonar su entorno de trabajo. Hacer streaming el modo predeterminado del motor Polars facilita escalar el procesamiento de datos que exceden la memoria de la GPU, abriendo posibilidades para pipelines GPU-accelerated más grandes y rápidos conforme crece el volumen de datos. Spectral Embedding añade una opción adicional de reducción de dimensionalidad, y las aceleraciones sin cambio de código para LinearSVC/LinearSVR/KernelRidge permiten a los equipos migrar a RAPIDS 25.08 con beneficios inmediatos sin reescrituras complicadas. La eliminación de CUDA 11 subraya la necesidad de adoptar toolchains modernos para mantener compatibilidad y aprovechar optimizaciones futuras. Las empresas que dependen de entornos CUDA antiguos deben planificar actualizaciones para evitar quedarsen fuera de soporte y de mejoras de rendimiento.
Detalles técnicos o Implementación
- Profiler en cuml.accel:
- Profiling a nivel función: muestra operaciones ejecutadas en GPU vs CPU y tiempo por función.
- Profiling a nivel línea: muestra el tiempo por línea de código.
- Cómo usarlo: en notebooks, ejecutando %%cuml.accel.profile después de cargar cuml.accel; en la CLI, usando —profile. El profiler de línea se activa con %%cuml.accel.line_profile y —line-profile.
- Streaming del Polars GPU:
- Predeterminado en 25.08; permite procesar datasets mayores que la memoria GPU gracias al particionamiento.
- Puede recurrir a memoria si una operación no está soportada.
- Tipos y operadores en Polars:
- Soporte para datos estructurados en columnas en GPU.
- Ampliación del conjunto de operadores para strings para rendimiento mejorado.
- Spectral Embedding en cuML:
- Nuevo algoritmo de reducción de dimensionalidad, API alineada con scikit-learn.
- Aceleraciones sin código para más algoritmos:
- LinearSVC, LinearSVR y KernelRidge añadidos a cuml.accel; todos los estimadores SVM cubiertos.
- CUDA 11:
- Soporte eliminado; para CUDA 11, fijar RAPIDS en 25.06.
Puntos clave
- Perfilado integrado para hallar cuellos de botella.
- Streaming por defecto para Polars GPU, con escalabilidad de datos.
- Soporte ampliado de struct y cadenas.
- Spectral Embedding y aceleraciones SVM sin cambios de código.
- Actualización de compatibilidad CUDA y plan de migración recomendado.
Preguntas frecuentes (FAQ)
- P: ¿Qué hay de los nuevos perfiles de cuml.accel? R: Hay perfiles a nivel de función y a nivel de línea. El perfil a nivel de función muestra operaciones GPU vs CPU y tiempos por función; el perfil a nivel de línea muestra tiempos por línea de código. En notebooks, use %%cuml.accel.profile; en la CLI, use —profile. El perfil de línea usa %%cuml.accel.line_profile y —line-profile.
- P: ¿Qué implica el modo streaming por defecto en Polars GPU? R: Permite manejar datasets mayores que la memoria GPU mediante particionamiento; hay fallback a memoria para operaciones no soportadas; soporta casi todas las operaciones de la ejecución en memoria GPU.
- P: ¿Qué algoritmos tienen aceleración sin cambios de código en cuml.accel? R: LinearSVC, LinearSVR y KernelRidge; todos los estimadores de la familia SVM están cubiertos.
- P: ¿CUDA 11 sigue siendo soportado? R: No; CUDA 11 fue eliminado. Si necesitas CUDA 11, fija RAPIDS en la versión 25.06.
- P: Spectral Embedding es idéntico a scikit-learn? R: La API de Spectral Embedding en cuML se alinea con la implementación de scikit-learn.
Referencias
More news
NVIDIA HGX B200 reduce la intensidad de las emisiones de carbono incorporado
El HGX B200 de NVIDIA reduce la intensidad de carbono incorporado en un 24% frente al HGX H100, al tiempo que ofrece mayor rendimiento de IA y eficiencia energética. Este artículo resume los datos PCF y las novedades de hardware.
Predecir Eventos Climáticos Extremos en Minutos sin Supercomputadora: Huge Ensembles (HENS)
NVIDIA y Berkeley Lab presentan Huge Ensembles (HENS), una herramienta de IA de código abierto que pronostica eventos climáticos raros y de alto impacto usando 27,000 años de datos, con opciones de código abierto o listas para usar.
Cómo reducir cuellos de botella KV Cache con NVIDIA Dynamo
NVIDIA Dynamo offloads KV Cache desde la memoria de la GPU hacia almacenamiento económico, habilitando contextos más largos, mayor concurrencia y costos de inferencia más bajos para grandes modelos y cargas de IA generativa.
Microsoft transforma el sitio de Foxconn en el data center Fairwater AI, descrito como el más poderoso del mundo
Microsoft anuncia planes para un data center Fairwater AI de 1,2 millones de pies cuadrados en Wisconsin, con cientos de miles de GPU Nvidia GB200. El proyecto de 3.3 mil millones de dólares promete un entrenamiento de IA sin precedentes.
Manual de los Grandmasters de Kaggle: 7 Técnicas de Modelado para Datos Tabulares
Un análisis detallado de siete técnicas probadas por los Grandmasters de Kaggle para resolver rápidamente conjuntos de datos tabulares mediante aceleración por GPU, desde baselines variados hasta ensamblaje y pseudo-etiquetado.
Decodificación especulativa para reducir la latencia en la inferencia de IA: EAGLE-3, MTP y enfoques Draft-Target
Análisis detallado de la decodificación especulativa para inferencia de IA, incluyendo Draft-Target y EAGLE-3, su impacto en latencia y cómo implementar con TensorRT de NVIDIA.