NVIDIA RAPIDS 25.08 Adiciona Novo Profiler para cuML, Melhorias no Motor GPU Polars e Suporte Ampliado de Algoritmos

TL;DR

A versão 25.08 do RAPIDS adiciona duas novas opções de profiling para cuml.accel: profiler em nível de função e profiler em nível de linha, com uso em notebook e linha de comando para ver execução GPU vs CPU e tempos por função/linha.
O executor streaming do motor GPU Polars passa a ser o padrão, permitindo processar conjuntos de dados maiores que a memória da GPU por meio de particionamento, com fallback para memória RAM para operações não suportadas.
O motor GPU do Polars ganha suporte a dados estruturados em colunas, operadores de string expandidos e suporte ampliado a tipos de dados para acelerar fluxos de trabalho comuns.
O cuML ganha o Spectral Embedding para redução de dimensionalidade e aprendizado de manifold; o cuml.accel passa a acelerar vários algoritmos com zero mudanças de código, incluindo LinearSVC, LinearSVR e KernelRidge.
O suporte ao CUDA 11 foi removido na versão 25.08; usuários que precisarem manter CUDA 11 podem fixar a RAPIDS na versão 25.06.

Contexto e panorama

A RAPIDS continua a acelerar e escalar fluxos de trabalho de ciência de dados, expandindo capacidades de aceleração por GPU e reduzindo o atrito para desenvolvedores. A versão 25.08 segue a tendência de melhorar a visibilidade de performance com novas opções de profiling para cuml.accel, assim como amplia a experiência de usuário com o motor GPU Polars. A execução streaming, introduzida como experimental em 25.06, amadurece e passa a ser o modo padrão, refletindo a necessidade de processar datasets maiores que a memória da GPU. Além disso, há evolução no suporte a tipos de dados e operadores no Polars, especialmente com suporte a dados estruturados em colunas e uma expansão de operadores para strings, reduzindo a necessidade de retrocesso para CPU. O cuML também amplia seu conjunto de algoritmos com Spectral Embedding, proporcionando uma opção GPU-accelerated para redução de dimensionalidade, enquanto o espaço de APIs se aproxima do scikit-learn para esse algoritmo. Com a remoção do CUDA 11, a NVIDIA sinaliza a necessidade de migrar para toolchains mais recentes para aproveitar as novidades de hardware e software, mantendo compatibilidade com versões mais antigas apenas por meio de pinagem da RAPIDS 25.06.

O que há de novo

Profilers em cuml.accel:
Profilador em nível de função: mostra operações executadas na GPU vs CPU e o tempo por função.
Profilador em nível de linha: mostra tempo de execução por linha de código.
Uso: em notebooks, rode %%cuml.accel.profile após carregar o cuml.accel; em scripts, utilize a opção —profile no CLI. O profiler de linha segue a mesma ideia com %%cuml.accel.line_profile e a opção —line-profile.
Motor GPU Polars com streaming:
Novo padrão de execução, permitindo processar dados maiores que a memória da GPU por particionamento.
Pode fallback para memória RAM para operações não suportadas.
Em 25.08, o streaming suporta quase todas as operações disponíveis na execução em memória.
Tipos de dados e operadores no Polars:
Suporte a dados estruturados em colunas agora acelerado pela GPU; operações envolvendo structs não precisam mais ir para CPU.
Maior conjunto de operadores para strings, ampliando o conjunto de funcionalidades aceleradas.
cuML Spectral Embedding: novo algoritmo para redução de dimensionalidade com API compatível com o scikit-learn.
Acelerações com zero código para novos algoritmos:
LinearSVC, LinearSVR e KernelRidge adicionados ao cuml.accel; agora todos os estimadores da família SVM são suportados.
CUDA 11: suporte removido; se necessário manter CUDA 11, fixe a RAPIDS em 25.06.

Para um mergulho mais profundo, consulte a documentação RAPIDS referenciada em Referências.

Por que isso importa (impacto para desenvolvedores/empresas)

Visibilidade de profiling diretamente dentro do cuml.accel ajuda cientistas de dados e engenheiros a localizar gargalos de desempenho em pipelines de ML, acelerando ciclos de otimização sem sair do ambiente preferido. Tornar o streaming do Polars o modo padrão permite escalar o processamento de dados que excedem a memória da GPU, abrindo caminhos para pipelines GPU-accelerated mais amplos com ganhos de desempenho à medida que o conjunto de dados cresce. A adição do Spectral Embedding amplia as opções de redução de dimensionalidade no cuML, facilitando fluxos de trabalho de aprendizado de máquina com menos dependências de código externo. As acelerações sem código para LinearSVC, LinearSVR e KernelRidge significam que equipes podem atualizar para a 25.08 e colher ganhos imediatamente, sem reescrever o código. A depreciação do CUDA 11 também reforça a necessidade de adotar toolchains mais recentes para manter compatibilidade e receber otimizações.

Detalhes técnicos ou Implementação

Profilers em cuml.accel:
Profiler de função: relatório de operações GPU vs CPU e tempo por função.
Profiler de linha: relatório de tempo por linha de código.
Uso: notebooks com %%cuml.accel.profile; CLI com —profile; linha de comando com —line-profile.
Streaming do Polars GPU:
Padrão ativo na 25.08, permitindo processar datasets acima da VRAM com particionamento.
Fallback para memória RAM para operações não suportadas.
Suporte a tipos de dados e operadores:
Struct data em colunas agora é acelerado pela GPU.
Amplo conjunto de operadores para strings para desempenho melhorado.
Spectral Embedding no cuML:
Novo algoritmo de redução de dimensionalidade com API compatível ao scikit-learn.
Acelerações com zero código para algoritmos adicionais:
LinearSVC, LinearSVR e KernelRidge passam a fazer parte do cuml.accel; todos os estimadores SVM são suportados.
Compatibilidade de CUDA:
CUDA 11 removido; para CUDA 11, fixe a RAPIDS na versão 25.06.

Legendas técnicas de implementação

A documentação correspondente e APIs estão atualizadas para refletir as novas capacidades e a paridade de API com o scikit-learn no Spectral Embedding.

Principais conclusões

Perfis funcionais e linha a linha para cuml.accel facilitam a identificação de gargalos.
Streaming no Polars GPU habilita escalabilidade além da memória da GPU.
Suporte a structs e operadores de strings amplia o alcance de workloads acelerados.
Spectral Embedding e acelerações com zero código para LinearSVC/LinearSVR/KernelRidge expandem o ecossistema cuML.
O fim do suporte ao CUDA 11 exige planejamento de atualização de toolchain.

FAQ

Quais são os novos profilers para cuml.accel?

Profilador em nível de função e profiler em nível de linha. O nivel de função mostra operações GPU vs CPU e tempo por função; o nível de linha mostra tempo por linha de código. Em notebooks use %%cuml.accel.profile; no CLI use --profile. O profiler de linha usa %%cuml.accel.line_profile e --line-profile.
O que significa o streaming do Polars GPU ser o padrão?

Permite processar dados maiores que a memória da GPU por particionamento; há fallback para memória RAM para operações não suportadas; hoje suporta quase todas as operações em memória GPU.
uais algoritmos foram adicionados com aceleração sem código (zero-code-change) no cuml.accel?

LinearSVC, LinearSVR e KernelRidge; todos os estimadores da família SVM são suportados.
O RAPIDS 25.08 suporta CUDA 11?

Não; o suporte ao CUDA 11 foi removido. Para CUDA 11, fixe a RAPIDS em 25.06.
Spectral Embedding é igual ao scikit-learn?

API do Spectral Embedding no cuML é compatível com a implementação do scikit-learn.

Referências

https://developer.nvidia.com/blog/nvidia-rapids-25-08-adds-new-profiler-for-cuml-updates-to-the-polars-gpu-engine-additional-algorithm-support-and-more/

NVIDIA RAPIDS 25.08 Adiciona Novo Profiler para cuML, Melhorias no Motor GPU Polars e Suporte Ampliado de Algoritmos

TL;DR

Contexto e panorama

O que há de novo

Por que isso importa (impacto para desenvolvedores/empresas)

Detalhes técnicos ou Implementação

Legendas técnicas de implementação

Principais conclusões

FAQ

Referências

More news

NVIDIA HGX B200 reduz a Intensidade de Emissões de Carbono Incorporado

Prever Eventos Climáticos Extremos em Minutos sem Supercomputador com Huge Ensembles (HENS)

Playbook dos Grandmasters do Kaggle: 7 Técnicas de Modelagem Testadas para Dados Tabulares

Como reduzir gargalos do KV Cache com NVIDIA Dynamo

Microsoft transforma site da Foxconn no data center Fairwater AI, considerado o mais poderoso do mundo

Decodificação Especulativa para Reduzir a Latência na Inferência de IA: EAGLE-3, MTP e Abordagens Draft-Target