Cortar Custos de Implantação de Modelos Mantendo Desempenho com Swap de Memória de GPU
Sources: https://developer.nvidia.com/blog/cut-model-deployment-costs-while-keeping-performance-with-gpu-memory-swap, https://developer.nvidia.com/blog/cut-model-deployment-costs-while-keeping-performance-with-gpu-memory-swap/, NVIDIA Dev Blog
TL;DR
- Implantar LLMs em escala gera trade-offs entre provisionar GPUs extras para pico de demanda e manter SLAs durante picos de tráfego.
- Swap de memória da GPU, também conhecido como hot-swapping de modelos, permite que múltiplos modelos compartilhem as mesmas GPUs mesmo quando a memória combinada excede a capacidade, melhorando a eficiência de autoscaling.
- Em testes práticos, o TTFT (tempo até o primeiro tensor) com swap de memória ficou na faixa de 2–3 segundos para os emparelhamentos apresentados, representando uma melhoria de 50–66x em relação à escalonamento a partir do zero.
- Em comparação com modelos aquecidos totalmente, o swap de memória pode oferecer economias significativas de custo com apenas um pequeno trade-off de latência, ajudando a consolidar cargas de trabalho em menos GPUs mantendo SLAs.
- NVIDIA Run:ai Model Streamer pode ajudar a reduzir o TTFT para cenários de escala a partir do zero em dezenas de segundos, enquanto swap de memória coloca o TTFT em sub-10 segundos para muitas aplicações.
Contexto e antecedentes
Implantar grandes modelos de linguagem em escala apresenta dois desafios: manter respostas rápidas durante picos de demanda e controlar os custos de GPUs. Organizações geralmente enfrentam uma escolha difícil: provisionar GPUs adicionais para lidar com o pico ou arriscar a deterioração do SLA durante picos de tráfego. Nenhuma opção é ideal para inferência em larga escala. A NVIDIA propõe o memory swap, ou swap de memória da GPU, como mecanismo para ampliar a utilização da GPU e melhorar a escalabilidade automática para cargas de inferência. Essa abordagem permite que múltiplos modelos compartilhem GPUs, mesmo quando a memória total requerida excede a capacidade disponível.
O que há de novo
O hot-swapping permite gerenciamento de recursos de forma mais dinâmica na entrega de modelos, permitindo que várias cargas de trabalho lastrem o hardware disponível. Em termos práticos, isso significa melhor adaptação a cargas imprevisíveis e evitar o overprovisioning caro. Para ilustrar o desempenho, a equipe da NVIDIA simulou cenários de implantação realistas de LLMs. Eles avaliaram dois grupos de modelos:
- Grupo 1: Llama 3.1 8B e Mistral-7B
- Grupo 2: Llama 3.1 8B e Falcon-11B Observações-chave dos testes:
- O TTFT é limitado pela largura de banda PCI e pelo tempo necessário para swap de modelos entre a memória da CPU e a GPU, e não apenas pelos modelos.
- Para os dois lotes — Llama 3.1 8B Instruct com Mistral-7B e Llama 3.1 8B Instruct com Falcon-11B — o TTFT foi consistentemente de 2–3 segundos, independentemente do tamanho do input. Falcon-11B mostrou TTFT ligeiramente maior (~0,5 segundos) frente ao Mistral-7B devido a sua pegada de memória maior, mas a diferença é pequena para cenários reais.
- No geral, o swap de memória produziu uma melhoria de aproximadamente 50–66x no TTFT em relação ao escalonamento a partir do zero, dependendo do tipo de modelo e do comprimento da entrada.
- O cenário de referência com modelos já carregados na GPU (warm) oferece respostas quase instantâneas, mas requer GPUs dedicadas a cada modelo o tempo todo, o que aumenta custos quando as cargas variam.
- Swap de memória da GPU reduz o TTFT para alguns segundos, permitindo consolidar cargas de trabalho em menos GPUs mantendo SLAs rigorosos.
- O NVIDIA Run:ai Model Streamer pode ajudar a reduzir o TTFT para cenários de escala a partir do zero em algumas dezenas de segundos, mas o swap de memória da GPU empurra o TTFT para territórios de sub-10 segundos para muitas aplicações reais.
Fonte: NVIDIA Run:ai GPU memory swap (hot-swapping de modelos) e os resultados de teste descritos estão apresentados pela NVIDIA em seu blog para desenvolvedores. Veja a discussão ao vivo no artigo vinculado para mais detalhes: NVIDIA Run:ai GPU memory swap.
Por que isso importa (impacto para desenvolvedores/empresas)
Para organizações que implantam LLMs em escala, swap de memória oferece um caminho prático para reduzir custos com GPU ociosas sem sacrificar a experiência do usuário. Ao permitir que vários modelos compartilhem GPUs, equipes podem consolidar cargas de trabalho em menos GPUs e ainda manter SLAs durante picos de demanda. A abordagem facilita reduzir o superprovisionamento e o custo total de propriedade para fleets de inferência, mantendo tempos de resposta competitivos para aplicações em tempo real.
Detalhes técnicos ou Implementação
O mecanismo de swap depende de transferir modelos entre a memória da CPU e a memória da GPU, carregando-os sob demanda, em vez de manter todos os modelos residentes na GPU o tempo todo. O desempenho fica sujeito principalmente à largura de banda PCIe e ao tempo de swap entre memória host e memória da device. Nos testes reportados, a linha de base aquecida (modelos totalmente carregados na GPU) entrega respostas próximas do instantâneo, porém com custo maior por manter ocupação contínua da GPU. Em contraste, o swap de memória torna possível consolidar cargas de trabalho em menos GPUs e ainda manter latência aceitável para SLAs reais. Em termos práticos, os modelos foram carregados da memória da CPU para a memória da GPU sob demanda, realizando swaps dinâmicos para satisfazer as solicitações de inferência. Isso demonstrou que o TTFT pode ficar nos segundos, mesmo para implantações com múltiplos modelos, com variações ocasionais dependendo da combinação de modelos e do tamanho da entrada. A abordagem é descrita como adequada para aplicações onde TTFT abaixo de 10 segundos é aceitável. Vale mencionar que, embora o NVIDIA Run:ai Model Streamer possa ajudar a reduzir o TTFT para cenários de escala a partir do zero em dezenas de segundos, o swap de memória da GPU empurra o TTFT para o território de sub-10 segundos em implantações práticas. Essa combinação oferece um equilíbrio competitivo entre desempenho e custo, permitindo maior utilização de GPUs e maior flexibilidade de escalonamento.
Principais conclusões
- Swap de memória da GPU permite que múltiplos modelos compartilhem GPUs, reduzindo o over-provisioning e melhorando a eficiência de escalonamento.
- Nos testes citados, TTFT com swap ficou em torno de 2–3 segundos para os emparelhamentos de modelo avaliados, uma melhoria de 50–66x frente a partir do zero.
- A latência residual é influenciada principalmente pela largura de banda PCIe e pela transferência host-GPU, não apenas pelo tamanho dos modelos.
- Modelos aquecidos (warm) oferecem respostas quase instantâneas, mas com maior custo total devido à ocupação de GPU contínua.
- TTFT abaixo de 10 segundos é alcançável com swap de memória, viabilizando a consolidação de cargas de trabalho em menos GPUs; Run:ai Model Streamer pode ajudar a reduzir ainda mais o TTFT em cenários de scale-from-zero.
FAQ
-
O que é swap de memória da GPU e como ele difere de modelos totalmente aquecidos?
Swap de memória da GPU carrega modelos da memória da CPU para a memória da GPU sob demanda, permitindo que múltiplos modelos compartilhem a mesma GPU mesmo quando a memória total excede a capacidade. Modelos aquecidos requerem GPUs dedicadas o tempo todo.
-
Como o swap de memória afeta a latência (TTFT) na prática?
Nos testes citados, o TTFT com swap variou de 2 a 3 segundos para os emparelhamentos avaliados, com variações de acordo com o tamanho da entrada. Isso representa uma melhoria substancial em relação ao escalonamento a partir do zero, que superou 140 segundos para modelos menores e passou de 200 segundos para os maiores.
-
uais são as trade-offs do swap de memória em comparação aos modelos totalmente aquecidos?
O principal trade-off é uma pequena diferença de latência em relação aos modelos totalmente aquecidos, mas com economias de custo significativas por usar menos GPUs e melhor utilização. Se tempos de TTFT abaixo de 10 segundos são suficientes para atender SLAs, o swap de memória oferece um equilíbrio favorável.
-
O swap de memória pode substituir toda estratégia de provisionamento de GPUs?
abordagem visa maximizar a eficiência de GPU para inferência e permitir a consolidação de cargas de trabalho em menos GPUs mantendo SLAs. Operadores ainda podem ajustar estratégias de provisionamento para atender SLAs e padrões de tráfego específicos, com swap de memória como complemento às ferramentas existentes.
Referências
More news
NVIDIA HGX B200 reduz a Intensidade de Emissões de Carbono Incorporado
O HGX B200 da NVIDIA reduz 24% da intensidade de carbono incorporado em relação ao HGX H100, ao mesmo tempo em que aumenta o desempenho de IA e a eficiência energética. Esta análise resume os dados de PCF e as novidades de hardware.
Prever Eventos Climáticos Extremos em Minutos sem Supercomputador com Huge Ensembles (HENS)
NVIDIA e o Lawrence Berkeley National Laboratory apresentam Huge Ensembles (HENS), uma ferramenta de IA de código aberto que prevê eventos climáticos raros e de alto impacto usando 27.000 anos de dados, com opções de código aberto ou prontos para uso.
Playbook dos Grandmasters do Kaggle: 7 Técnicas de Modelagem Testadas para Dados Tabulares
Análise detalhada de sete técnicas testadas por Grandmasters do Kaggle para resolver grandes conjuntos de dados tabulares com aceleração por GPU, desde baselines diversificados até ensemble avançado e pseudo-rotulagem.
Como reduzir gargalos do KV Cache com NVIDIA Dynamo
O Dynamo da NVIDIA transfere o KV Cache da memória da GPU para armazenamento de custo mais baixo, permitindo janelas de contexto maiores, maior concorrência e menor custo de inferência em grandes modelos.
Microsoft transforma site da Foxconn no data center Fairwater AI, considerado o mais poderoso do mundo
A Microsoft divulga planos para um data center Fairwater AI de 1,2 milhão de pés quadrados no Wisconsin, com centenas de milhares de GPUs Nvidia GB200. projeto de US$ 3,3 bilhões promete treinamento de IA em escala sem precedentes.
NVIDIA RAPIDS 25.08 Adiciona Novo Profiler para cuML, Melhorias no Motor GPU Polars e Suporte Ampliado de Algoritmos
RAPIDS 25.08 traz profiladores function-level e line-level para cuml.accel, executor streaming padrão no motor GPU Polars, suporte ampliado de tipos e strings, novo Spectral Embedding no cuML e acelerações com zero código para mais algoritmos.