NVIDIA RAPIDS 25.08 Adiciona Novo Profiler para cuML, Melhorias no Motor GPU Polars e Suporte Ampliado de Algoritmos
Sources: https://developer.nvidia.com/blog/nvidia-rapids-25-08-adds-new-profiler-for-cuml-updates-to-the-polars-gpu-engine-additional-algorithm-support-and-more, https://developer.nvidia.com/blog/nvidia-rapids-25-08-adds-new-profiler-for-cuml-updates-to-the-polars-gpu-engine-additional-algorithm-support-and-more/, NVIDIA Dev Blog
TL;DR
- A versão 25.08 do RAPIDS adiciona duas novas opções de profiling para cuml.accel: profiler em nível de função e profiler em nível de linha, com uso em notebook e linha de comando para ver execução GPU vs CPU e tempos por função/linha.
- O executor streaming do motor GPU Polars passa a ser o padrão, permitindo processar conjuntos de dados maiores que a memória da GPU por meio de particionamento, com fallback para memória RAM para operações não suportadas.
- O motor GPU do Polars ganha suporte a dados estruturados em colunas, operadores de string expandidos e suporte ampliado a tipos de dados para acelerar fluxos de trabalho comuns.
- O cuML ganha o Spectral Embedding para redução de dimensionalidade e aprendizado de manifold; o cuml.accel passa a acelerar vários algoritmos com zero mudanças de código, incluindo LinearSVC, LinearSVR e KernelRidge.
- O suporte ao CUDA 11 foi removido na versão 25.08; usuários que precisarem manter CUDA 11 podem fixar a RAPIDS na versão 25.06.
Contexto e panorama
A RAPIDS continua a acelerar e escalar fluxos de trabalho de ciência de dados, expandindo capacidades de aceleração por GPU e reduzindo o atrito para desenvolvedores. A versão 25.08 segue a tendência de melhorar a visibilidade de performance com novas opções de profiling para cuml.accel, assim como amplia a experiência de usuário com o motor GPU Polars. A execução streaming, introduzida como experimental em 25.06, amadurece e passa a ser o modo padrão, refletindo a necessidade de processar datasets maiores que a memória da GPU. Além disso, há evolução no suporte a tipos de dados e operadores no Polars, especialmente com suporte a dados estruturados em colunas e uma expansão de operadores para strings, reduzindo a necessidade de retrocesso para CPU. O cuML também amplia seu conjunto de algoritmos com Spectral Embedding, proporcionando uma opção GPU-accelerated para redução de dimensionalidade, enquanto o espaço de APIs se aproxima do scikit-learn para esse algoritmo. Com a remoção do CUDA 11, a NVIDIA sinaliza a necessidade de migrar para toolchains mais recentes para aproveitar as novidades de hardware e software, mantendo compatibilidade com versões mais antigas apenas por meio de pinagem da RAPIDS 25.06.
O que há de novo
- Profilers em cuml.accel:
- Profilador em nível de função: mostra operações executadas na GPU vs CPU e o tempo por função.
- Profilador em nível de linha: mostra tempo de execução por linha de código.
- Uso: em notebooks, rode %%cuml.accel.profile após carregar o cuml.accel; em scripts, utilize a opção —profile no CLI. O profiler de linha segue a mesma ideia com %%cuml.accel.line_profile e a opção —line-profile.
- Motor GPU Polars com streaming:
- Novo padrão de execução, permitindo processar dados maiores que a memória da GPU por particionamento.
- Pode fallback para memória RAM para operações não suportadas.
- Em 25.08, o streaming suporta quase todas as operações disponíveis na execução em memória.
- Tipos de dados e operadores no Polars:
- Suporte a dados estruturados em colunas agora acelerado pela GPU; operações envolvendo structs não precisam mais ir para CPU.
- Maior conjunto de operadores para strings, ampliando o conjunto de funcionalidades aceleradas.
- cuML Spectral Embedding: novo algoritmo para redução de dimensionalidade com API compatível com o scikit-learn.
- Acelerações com zero código para novos algoritmos:
- LinearSVC, LinearSVR e KernelRidge adicionados ao cuml.accel; agora todos os estimadores da família SVM são suportados.
- CUDA 11: suporte removido; se necessário manter CUDA 11, fixe a RAPIDS em 25.06.
Para um mergulho mais profundo, consulte a documentação RAPIDS referenciada em Referências.
Por que isso importa (impacto para desenvolvedores/empresas)
Visibilidade de profiling diretamente dentro do cuml.accel ajuda cientistas de dados e engenheiros a localizar gargalos de desempenho em pipelines de ML, acelerando ciclos de otimização sem sair do ambiente preferido. Tornar o streaming do Polars o modo padrão permite escalar o processamento de dados que excedem a memória da GPU, abrindo caminhos para pipelines GPU-accelerated mais amplos com ganhos de desempenho à medida que o conjunto de dados cresce. A adição do Spectral Embedding amplia as opções de redução de dimensionalidade no cuML, facilitando fluxos de trabalho de aprendizado de máquina com menos dependências de código externo. As acelerações sem código para LinearSVC, LinearSVR e KernelRidge significam que equipes podem atualizar para a 25.08 e colher ganhos imediatamente, sem reescrever o código. A depreciação do CUDA 11 também reforça a necessidade de adotar toolchains mais recentes para manter compatibilidade e receber otimizações.
Detalhes técnicos ou Implementação
- Profilers em cuml.accel:
- Profiler de função: relatório de operações GPU vs CPU e tempo por função.
- Profiler de linha: relatório de tempo por linha de código.
- Uso: notebooks com %%cuml.accel.profile; CLI com —profile; linha de comando com —line-profile.
- Streaming do Polars GPU:
- Padrão ativo na 25.08, permitindo processar datasets acima da VRAM com particionamento.
- Fallback para memória RAM para operações não suportadas.
- Suporte a tipos de dados e operadores:
- Struct data em colunas agora é acelerado pela GPU.
- Amplo conjunto de operadores para strings para desempenho melhorado.
- Spectral Embedding no cuML:
- Novo algoritmo de redução de dimensionalidade com API compatível ao scikit-learn.
- Acelerações com zero código para algoritmos adicionais:
- LinearSVC, LinearSVR e KernelRidge passam a fazer parte do cuml.accel; todos os estimadores SVM são suportados.
- Compatibilidade de CUDA:
- CUDA 11 removido; para CUDA 11, fixe a RAPIDS na versão 25.06.
Legendas técnicas de implementação
- A documentação correspondente e APIs estão atualizadas para refletir as novas capacidades e a paridade de API com o scikit-learn no Spectral Embedding.
Principais conclusões
- Perfis funcionais e linha a linha para cuml.accel facilitam a identificação de gargalos.
- Streaming no Polars GPU habilita escalabilidade além da memória da GPU.
- Suporte a structs e operadores de strings amplia o alcance de workloads acelerados.
- Spectral Embedding e acelerações com zero código para LinearSVC/LinearSVR/KernelRidge expandem o ecossistema cuML.
- O fim do suporte ao CUDA 11 exige planejamento de atualização de toolchain.
FAQ
-
Quais são os novos profilers para cuml.accel?
Profilador em nível de função e profiler em nível de linha. O nivel de função mostra operações GPU vs CPU e tempo por função; o nível de linha mostra tempo por linha de código. Em notebooks use %%cuml.accel.profile; no CLI use --profile. O profiler de linha usa %%cuml.accel.line_profile e --line-profile.
-
O que significa o streaming do Polars GPU ser o padrão?
Permite processar dados maiores que a memória da GPU por particionamento; há fallback para memória RAM para operações não suportadas; hoje suporta quase todas as operações em memória GPU.
-
uais algoritmos foram adicionados com aceleração sem código (zero-code-change) no cuml.accel?
LinearSVC, LinearSVR e KernelRidge; todos os estimadores da família SVM são suportados.
-
O RAPIDS 25.08 suporta CUDA 11?
Não; o suporte ao CUDA 11 foi removido. Para CUDA 11, fixe a RAPIDS em 25.06.
-
Spectral Embedding é igual ao scikit-learn?
API do Spectral Embedding no cuML é compatível com a implementação do scikit-learn.
Referências
More news
NVIDIA HGX B200 reduz a Intensidade de Emissões de Carbono Incorporado
O HGX B200 da NVIDIA reduz 24% da intensidade de carbono incorporado em relação ao HGX H100, ao mesmo tempo em que aumenta o desempenho de IA e a eficiência energética. Esta análise resume os dados de PCF e as novidades de hardware.
Prever Eventos Climáticos Extremos em Minutos sem Supercomputador com Huge Ensembles (HENS)
NVIDIA e o Lawrence Berkeley National Laboratory apresentam Huge Ensembles (HENS), uma ferramenta de IA de código aberto que prevê eventos climáticos raros e de alto impacto usando 27.000 anos de dados, com opções de código aberto ou prontos para uso.
Playbook dos Grandmasters do Kaggle: 7 Técnicas de Modelagem Testadas para Dados Tabulares
Análise detalhada de sete técnicas testadas por Grandmasters do Kaggle para resolver grandes conjuntos de dados tabulares com aceleração por GPU, desde baselines diversificados até ensemble avançado e pseudo-rotulagem.
Como reduzir gargalos do KV Cache com NVIDIA Dynamo
O Dynamo da NVIDIA transfere o KV Cache da memória da GPU para armazenamento de custo mais baixo, permitindo janelas de contexto maiores, maior concorrência e menor custo de inferência em grandes modelos.
Microsoft transforma site da Foxconn no data center Fairwater AI, considerado o mais poderoso do mundo
A Microsoft divulga planos para um data center Fairwater AI de 1,2 milhão de pés quadrados no Wisconsin, com centenas de milhares de GPUs Nvidia GB200. projeto de US$ 3,3 bilhões promete treinamento de IA em escala sem precedentes.
Decodificação Especulativa para Reduzir a Latência na Inferência de IA: EAGLE-3, MTP e Abordagens Draft-Target
Exploração detalhada de decodificação especulativa para inferência de IA, incluindo métodos draft-target e EAGLE-3, como reduzem latência e como implantar em GPUs NVIDIA com TensorRT.