Skip to content
Cortar Custos de Implantação de Modelos Mantendo Desempenho com Swap de Memória de GPU
Source: developer.nvidia.com

Cortar Custos de Implantação de Modelos Mantendo Desempenho com Swap de Memória de GPU

Sources: https://developer.nvidia.com/blog/cut-model-deployment-costs-while-keeping-performance-with-gpu-memory-swap, https://developer.nvidia.com/blog/cut-model-deployment-costs-while-keeping-performance-with-gpu-memory-swap/, NVIDIA Dev Blog

TL;DR

  • Implantar LLMs em escala gera trade-offs entre provisionar GPUs extras para pico de demanda e manter SLAs durante picos de tráfego.
  • Swap de memória da GPU, também conhecido como hot-swapping de modelos, permite que múltiplos modelos compartilhem as mesmas GPUs mesmo quando a memória combinada excede a capacidade, melhorando a eficiência de autoscaling.
  • Em testes práticos, o TTFT (tempo até o primeiro tensor) com swap de memória ficou na faixa de 2–3 segundos para os emparelhamentos apresentados, representando uma melhoria de 50–66x em relação à escalonamento a partir do zero.
  • Em comparação com modelos aquecidos totalmente, o swap de memória pode oferecer economias significativas de custo com apenas um pequeno trade-off de latência, ajudando a consolidar cargas de trabalho em menos GPUs mantendo SLAs.
  • NVIDIA Run:ai Model Streamer pode ajudar a reduzir o TTFT para cenários de escala a partir do zero em dezenas de segundos, enquanto swap de memória coloca o TTFT em sub-10 segundos para muitas aplicações.

Contexto e antecedentes

Implantar grandes modelos de linguagem em escala apresenta dois desafios: manter respostas rápidas durante picos de demanda e controlar os custos de GPUs. Organizações geralmente enfrentam uma escolha difícil: provisionar GPUs adicionais para lidar com o pico ou arriscar a deterioração do SLA durante picos de tráfego. Nenhuma opção é ideal para inferência em larga escala. A NVIDIA propõe o memory swap, ou swap de memória da GPU, como mecanismo para ampliar a utilização da GPU e melhorar a escalabilidade automática para cargas de inferência. Essa abordagem permite que múltiplos modelos compartilhem GPUs, mesmo quando a memória total requerida excede a capacidade disponível.

O que há de novo

O hot-swapping permite gerenciamento de recursos de forma mais dinâmica na entrega de modelos, permitindo que várias cargas de trabalho lastrem o hardware disponível. Em termos práticos, isso significa melhor adaptação a cargas imprevisíveis e evitar o overprovisioning caro. Para ilustrar o desempenho, a equipe da NVIDIA simulou cenários de implantação realistas de LLMs. Eles avaliaram dois grupos de modelos:

  • Grupo 1: Llama 3.1 8B e Mistral-7B
  • Grupo 2: Llama 3.1 8B e Falcon-11B Observações-chave dos testes:
  • O TTFT é limitado pela largura de banda PCI e pelo tempo necessário para swap de modelos entre a memória da CPU e a GPU, e não apenas pelos modelos.
  • Para os dois lotes — Llama 3.1 8B Instruct com Mistral-7B e Llama 3.1 8B Instruct com Falcon-11B — o TTFT foi consistentemente de 2–3 segundos, independentemente do tamanho do input. Falcon-11B mostrou TTFT ligeiramente maior (~0,5 segundos) frente ao Mistral-7B devido a sua pegada de memória maior, mas a diferença é pequena para cenários reais.
  • No geral, o swap de memória produziu uma melhoria de aproximadamente 50–66x no TTFT em relação ao escalonamento a partir do zero, dependendo do tipo de modelo e do comprimento da entrada.
  • O cenário de referência com modelos já carregados na GPU (warm) oferece respostas quase instantâneas, mas requer GPUs dedicadas a cada modelo o tempo todo, o que aumenta custos quando as cargas variam.
  • Swap de memória da GPU reduz o TTFT para alguns segundos, permitindo consolidar cargas de trabalho em menos GPUs mantendo SLAs rigorosos.
  • O NVIDIA Run:ai Model Streamer pode ajudar a reduzir o TTFT para cenários de escala a partir do zero em algumas dezenas de segundos, mas o swap de memória da GPU empurra o TTFT para territórios de sub-10 segundos para muitas aplicações reais.

Fonte: NVIDIA Run:ai GPU memory swap (hot-swapping de modelos) e os resultados de teste descritos estão apresentados pela NVIDIA em seu blog para desenvolvedores. Veja a discussão ao vivo no artigo vinculado para mais detalhes: NVIDIA Run:ai GPU memory swap.

Por que isso importa (impacto para desenvolvedores/empresas)

Para organizações que implantam LLMs em escala, swap de memória oferece um caminho prático para reduzir custos com GPU ociosas sem sacrificar a experiência do usuário. Ao permitir que vários modelos compartilhem GPUs, equipes podem consolidar cargas de trabalho em menos GPUs e ainda manter SLAs durante picos de demanda. A abordagem facilita reduzir o superprovisionamento e o custo total de propriedade para fleets de inferência, mantendo tempos de resposta competitivos para aplicações em tempo real.

Detalhes técnicos ou Implementação

O mecanismo de swap depende de transferir modelos entre a memória da CPU e a memória da GPU, carregando-os sob demanda, em vez de manter todos os modelos residentes na GPU o tempo todo. O desempenho fica sujeito principalmente à largura de banda PCIe e ao tempo de swap entre memória host e memória da device. Nos testes reportados, a linha de base aquecida (modelos totalmente carregados na GPU) entrega respostas próximas do instantâneo, porém com custo maior por manter ocupação contínua da GPU. Em contraste, o swap de memória torna possível consolidar cargas de trabalho em menos GPUs e ainda manter latência aceitável para SLAs reais. Em termos práticos, os modelos foram carregados da memória da CPU para a memória da GPU sob demanda, realizando swaps dinâmicos para satisfazer as solicitações de inferência. Isso demonstrou que o TTFT pode ficar nos segundos, mesmo para implantações com múltiplos modelos, com variações ocasionais dependendo da combinação de modelos e do tamanho da entrada. A abordagem é descrita como adequada para aplicações onde TTFT abaixo de 10 segundos é aceitável. Vale mencionar que, embora o NVIDIA Run:ai Model Streamer possa ajudar a reduzir o TTFT para cenários de escala a partir do zero em dezenas de segundos, o swap de memória da GPU empurra o TTFT para o território de sub-10 segundos em implantações práticas. Essa combinação oferece um equilíbrio competitivo entre desempenho e custo, permitindo maior utilização de GPUs e maior flexibilidade de escalonamento.

Principais conclusões

  • Swap de memória da GPU permite que múltiplos modelos compartilhem GPUs, reduzindo o over-provisioning e melhorando a eficiência de escalonamento.
  • Nos testes citados, TTFT com swap ficou em torno de 2–3 segundos para os emparelhamentos de modelo avaliados, uma melhoria de 50–66x frente a partir do zero.
  • A latência residual é influenciada principalmente pela largura de banda PCIe e pela transferência host-GPU, não apenas pelo tamanho dos modelos.
  • Modelos aquecidos (warm) oferecem respostas quase instantâneas, mas com maior custo total devido à ocupação de GPU contínua.
  • TTFT abaixo de 10 segundos é alcançável com swap de memória, viabilizando a consolidação de cargas de trabalho em menos GPUs; Run:ai Model Streamer pode ajudar a reduzir ainda mais o TTFT em cenários de scale-from-zero.

FAQ

  • O que é swap de memória da GPU e como ele difere de modelos totalmente aquecidos?

    Swap de memória da GPU carrega modelos da memória da CPU para a memória da GPU sob demanda, permitindo que múltiplos modelos compartilhem a mesma GPU mesmo quando a memória total excede a capacidade. Modelos aquecidos requerem GPUs dedicadas o tempo todo.

  • Como o swap de memória afeta a latência (TTFT) na prática?

    Nos testes citados, o TTFT com swap variou de 2 a 3 segundos para os emparelhamentos avaliados, com variações de acordo com o tamanho da entrada. Isso representa uma melhoria substancial em relação ao escalonamento a partir do zero, que superou 140 segundos para modelos menores e passou de 200 segundos para os maiores.

  • uais são as trade-offs do swap de memória em comparação aos modelos totalmente aquecidos?

    O principal trade-off é uma pequena diferença de latência em relação aos modelos totalmente aquecidos, mas com economias de custo significativas por usar menos GPUs e melhor utilização. Se tempos de TTFT abaixo de 10 segundos são suficientes para atender SLAs, o swap de memória oferece um equilíbrio favorável.

  • O swap de memória pode substituir toda estratégia de provisionamento de GPUs?

    abordagem visa maximizar a eficiência de GPU para inferência e permitir a consolidação de cargas de trabalho em menos GPUs mantendo SLAs. Operadores ainda podem ajustar estratégias de provisionamento para atender SLAs e padrões de tráfego específicos, com swap de memória como complemento às ferramentas existentes.

Referências

More news