Cortar Custos de Implantação de Modelos Mantendo Desempenho com Swap de Memória de GPU

TL;DR

Implantar LLMs em escala gera trade-offs entre provisionar GPUs extras para pico de demanda e manter SLAs durante picos de tráfego.
Swap de memória da GPU, também conhecido como hot-swapping de modelos, permite que múltiplos modelos compartilhem as mesmas GPUs mesmo quando a memória combinada excede a capacidade, melhorando a eficiência de autoscaling.
Em testes práticos, o TTFT (tempo até o primeiro tensor) com swap de memória ficou na faixa de 2–3 segundos para os emparelhamentos apresentados, representando uma melhoria de 50–66x em relação à escalonamento a partir do zero.
Em comparação com modelos aquecidos totalmente, o swap de memória pode oferecer economias significativas de custo com apenas um pequeno trade-off de latência, ajudando a consolidar cargas de trabalho em menos GPUs mantendo SLAs.
NVIDIA Run:ai Model Streamer pode ajudar a reduzir o TTFT para cenários de escala a partir do zero em dezenas de segundos, enquanto swap de memória coloca o TTFT em sub-10 segundos para muitas aplicações.

Contexto e antecedentes

Implantar grandes modelos de linguagem em escala apresenta dois desafios: manter respostas rápidas durante picos de demanda e controlar os custos de GPUs. Organizações geralmente enfrentam uma escolha difícil: provisionar GPUs adicionais para lidar com o pico ou arriscar a deterioração do SLA durante picos de tráfego. Nenhuma opção é ideal para inferência em larga escala. A NVIDIA propõe o memory swap, ou swap de memória da GPU, como mecanismo para ampliar a utilização da GPU e melhorar a escalabilidade automática para cargas de inferência. Essa abordagem permite que múltiplos modelos compartilhem GPUs, mesmo quando a memória total requerida excede a capacidade disponível.

O que há de novo

O hot-swapping permite gerenciamento de recursos de forma mais dinâmica na entrega de modelos, permitindo que várias cargas de trabalho lastrem o hardware disponível. Em termos práticos, isso significa melhor adaptação a cargas imprevisíveis e evitar o overprovisioning caro. Para ilustrar o desempenho, a equipe da NVIDIA simulou cenários de implantação realistas de LLMs. Eles avaliaram dois grupos de modelos:

Grupo 1: Llama 3.1 8B e Mistral-7B
Grupo 2: Llama 3.1 8B e Falcon-11B Observações-chave dos testes:
O TTFT é limitado pela largura de banda PCI e pelo tempo necessário para swap de modelos entre a memória da CPU e a GPU, e não apenas pelos modelos.
Para os dois lotes — Llama 3.1 8B Instruct com Mistral-7B e Llama 3.1 8B Instruct com Falcon-11B — o TTFT foi consistentemente de 2–3 segundos, independentemente do tamanho do input. Falcon-11B mostrou TTFT ligeiramente maior (~0,5 segundos) frente ao Mistral-7B devido a sua pegada de memória maior, mas a diferença é pequena para cenários reais.
No geral, o swap de memória produziu uma melhoria de aproximadamente 50–66x no TTFT em relação ao escalonamento a partir do zero, dependendo do tipo de modelo e do comprimento da entrada.
O cenário de referência com modelos já carregados na GPU (warm) oferece respostas quase instantâneas, mas requer GPUs dedicadas a cada modelo o tempo todo, o que aumenta custos quando as cargas variam.
Swap de memória da GPU reduz o TTFT para alguns segundos, permitindo consolidar cargas de trabalho em menos GPUs mantendo SLAs rigorosos.
O NVIDIA Run:ai Model Streamer pode ajudar a reduzir o TTFT para cenários de escala a partir do zero em algumas dezenas de segundos, mas o swap de memória da GPU empurra o TTFT para territórios de sub-10 segundos para muitas aplicações reais.

Fonte: NVIDIA Run:ai GPU memory swap (hot-swapping de modelos) e os resultados de teste descritos estão apresentados pela NVIDIA em seu blog para desenvolvedores. Veja a discussão ao vivo no artigo vinculado para mais detalhes: NVIDIA Run:ai GPU memory swap.

Por que isso importa (impacto para desenvolvedores/empresas)

Para organizações que implantam LLMs em escala, swap de memória oferece um caminho prático para reduzir custos com GPU ociosas sem sacrificar a experiência do usuário. Ao permitir que vários modelos compartilhem GPUs, equipes podem consolidar cargas de trabalho em menos GPUs e ainda manter SLAs durante picos de demanda. A abordagem facilita reduzir o superprovisionamento e o custo total de propriedade para fleets de inferência, mantendo tempos de resposta competitivos para aplicações em tempo real.

Detalhes técnicos ou Implementação

O mecanismo de swap depende de transferir modelos entre a memória da CPU e a memória da GPU, carregando-os sob demanda, em vez de manter todos os modelos residentes na GPU o tempo todo. O desempenho fica sujeito principalmente à largura de banda PCIe e ao tempo de swap entre memória host e memória da device. Nos testes reportados, a linha de base aquecida (modelos totalmente carregados na GPU) entrega respostas próximas do instantâneo, porém com custo maior por manter ocupação contínua da GPU. Em contraste, o swap de memória torna possível consolidar cargas de trabalho em menos GPUs e ainda manter latência aceitável para SLAs reais. Em termos práticos, os modelos foram carregados da memória da CPU para a memória da GPU sob demanda, realizando swaps dinâmicos para satisfazer as solicitações de inferência. Isso demonstrou que o TTFT pode ficar nos segundos, mesmo para implantações com múltiplos modelos, com variações ocasionais dependendo da combinação de modelos e do tamanho da entrada. A abordagem é descrita como adequada para aplicações onde TTFT abaixo de 10 segundos é aceitável. Vale mencionar que, embora o NVIDIA Run:ai Model Streamer possa ajudar a reduzir o TTFT para cenários de escala a partir do zero em dezenas de segundos, o swap de memória da GPU empurra o TTFT para o território de sub-10 segundos em implantações práticas. Essa combinação oferece um equilíbrio competitivo entre desempenho e custo, permitindo maior utilização de GPUs e maior flexibilidade de escalonamento.

Principais conclusões

Swap de memória da GPU permite que múltiplos modelos compartilhem GPUs, reduzindo o over-provisioning e melhorando a eficiência de escalonamento.
Nos testes citados, TTFT com swap ficou em torno de 2–3 segundos para os emparelhamentos de modelo avaliados, uma melhoria de 50–66x frente a partir do zero.
A latência residual é influenciada principalmente pela largura de banda PCIe e pela transferência host-GPU, não apenas pelo tamanho dos modelos.
Modelos aquecidos (warm) oferecem respostas quase instantâneas, mas com maior custo total devido à ocupação de GPU contínua.
TTFT abaixo de 10 segundos é alcançável com swap de memória, viabilizando a consolidação de cargas de trabalho em menos GPUs; Run:ai Model Streamer pode ajudar a reduzir ainda mais o TTFT em cenários de scale-from-zero.

FAQ

O que é swap de memória da GPU e como ele difere de modelos totalmente aquecidos?

Swap de memória da GPU carrega modelos da memória da CPU para a memória da GPU sob demanda, permitindo que múltiplos modelos compartilhem a mesma GPU mesmo quando a memória total excede a capacidade. Modelos aquecidos requerem GPUs dedicadas o tempo todo.
Como o swap de memória afeta a latência (TTFT) na prática?

Nos testes citados, o TTFT com swap variou de 2 a 3 segundos para os emparelhamentos avaliados, com variações de acordo com o tamanho da entrada. Isso representa uma melhoria substancial em relação ao escalonamento a partir do zero, que superou 140 segundos para modelos menores e passou de 200 segundos para os maiores.
uais são as trade-offs do swap de memória em comparação aos modelos totalmente aquecidos?

O principal trade-off é uma pequena diferença de latência em relação aos modelos totalmente aquecidos, mas com economias de custo significativas por usar menos GPUs e melhor utilização. Se tempos de TTFT abaixo de 10 segundos são suficientes para atender SLAs, o swap de memória oferece um equilíbrio favorável.
O swap de memória pode substituir toda estratégia de provisionamento de GPUs?

abordagem visa maximizar a eficiência de GPU para inferência e permitir a consolidação de cargas de trabalho em menos GPUs mantendo SLAs. Operadores ainda podem ajustar estratégias de provisionamento para atender SLAs e padrões de tráfego específicos, com swap de memória como complemento às ferramentas existentes.

Referências

NVIDIA Run:ai GPU memory swap

Cortar Custos de Implantação de Modelos Mantendo Desempenho com Swap de Memória de GPU

TL;DR

Contexto e antecedentes

O que há de novo

Por que isso importa (impacto para desenvolvedores/empresas)

Detalhes técnicos ou Implementação

Principais conclusões

FAQ

Referências

More news

NVIDIA HGX B200 reduz a Intensidade de Emissões de Carbono Incorporado

Prever Eventos Climáticos Extremos em Minutos sem Supercomputador com Huge Ensembles (HENS)

Playbook dos Grandmasters do Kaggle: 7 Técnicas de Modelagem Testadas para Dados Tabulares

Como reduzir gargalos do KV Cache com NVIDIA Dynamo

Microsoft transforma site da Foxconn no data center Fairwater AI, considerado o mais poderoso do mundo

NVIDIA RAPIDS 25.08 Adiciona Novo Profiler para cuML, Melhorias no Motor GPU Polars e Suporte Ampliado de Algoritmos