Reducir costos de despliegue de modelos manteniendo rendimiento con intercambio de memoria de GPU
Sources: https://developer.nvidia.com/blog/cut-model-deployment-costs-while-keeping-performance-with-gpu-memory-swap, https://developer.nvidia.com/blog/cut-model-deployment-costs-while-keeping-performance-with-gpu-memory-swap/, NVIDIA Dev Blog
TL;DR
- Desplegar grandes modelos de lenguaje a gran escala obliga a equilibrar entre provisionar más GPUs para picos y no cumplir SLA durante aumentos de tráfico.
- El intercambio de memoria de la GPU, también llamado hot-swapping de modelos, permite que varios modelos compartan las mismas GPUs incluso cuando la memoria total supera la capacidad, mejorando la eficiencia del autoescalado.
- En pruebas prácticas, el TTFT (tiempo hasta el primer tensor) con swap de memoria se situó en 2–3 segundos para las combinaciones presentadas, lo que representa una mejora de 50–66x frente a escalar desde cero.
- En comparación con modelos completamente cargados en GPU, el swap de memoria puede lograr ahorros significativos de costo con una tolerancia de latencia moderada, y facilita la consolidación de cargas de trabajo en menos GPUs manteniendo SLAs.
- NVIDIA Run:ai Model Streamer puede ayudar a reducir el TTFT para escenarios de escala desde cero en decenas de segundos, mientras que el swap de memoria puede colocar el TTFT en sub-10 segundos para muchas aplicaciones.
Contexto y antecedentes
Desplegar LLMs a escala presenta dos retos: mantener respuestas rápidas durante picos de demanda y controlar los costos de GPUs. Las organizaciones a menudo deben elegir entre provisionar GPUs adicionales para picos o arriesgarse a que los SLA fallen durante el incremento de trafico. Ninguna opción es ideal para la inferencia a gran escala. NVIDIA propone el swap de memoria de la GPU, también conocido como hot-swapping de modelos, como un mecanismo para ampliar la utilización de GPU y mejorar la eficiencia del escalado automático para cargas de inferencia. Este enfoque permite que varios modelos compartan GPUs, incluso cuando sus requerimientos de memoria superan la capacidad disponible.
Qué hay de nuevo
El hot-swapping introduce una gestión de recursos más dinámica en el servicio de modelos, permitiendo que varias cargas de trabajo ocupen la misma infraestructura. En términos prácticos, esto significa una mejor adaptación a cargas impredecibles y evitar sobreaprovisionamiento costoso. Para ilustrar el rendimiento, el equipo de NVIDIA simuló escenarios de implementación realistas de LLM. Evaluaron dos grupos de modelos:
- Grupo 1: Llama 3.1 8B y Mistral-7B
- Grupo 2: Llama 3.1 8B y Falcon-11B Observaciones clave de las pruebas:
- El TTFT está limitado por el ancho de banda PCIe y el tiempo necesario para intercambiar modelos entre la memoria de la CPU y la GPU.
- Para ambos lotes —Llama 3.1 8B Instruct con Mistral-7B y Llama 3.1 8B Instruct con Falcon-11B—el TTFT se mantuvo en efectivo entre 2 y 3 segundos, independientemente del tamaño de la entrada. Falcon-11B mostró un TTFT ligeramente mayor (~0,5 segundos) debido a su mayor huella de memoria, pero la diferencia es mínima en escenarios reales.
- En conjunto, el swap de memoria produjo una mejora de aproximadamente 50–66x en TTFT frente a escalar desde cero, dependiendo del tipo de modelo y la longitud de la entrada.
- El escenario de referencia con modelos ya cargados en GPU (modelos warm) ofrece respuestas casi instantáneas, pero requiere GPUs dedicadas todo el tiempo, lo que puede ser costoso cuando la carga varía.
- El swap de memoria reduce el TTFT a pocos segundos, permitiendo consolidar cargas de trabajo en menos GPUs y mantener SLAs exigentes.
- Aunque NVIDIA Run:ai Model Streamer puede ayudar a reducir el TTFT para escenarios scale-from-zero en decenas de segundos, el swap de memoria empuja el TTFT a rangos sub-10 segundos para muchas implementaciones prácticas.
Fuente: NVIDIA Run:ai GPU memory swap (hot-swapping de modelos) y los resultados de pruebas son presentados por NVIDIA en su blog para desarrolladores. Consulta el artículo vinculado para más detalles: NVIDIA Run:ai GPU memory swap.
Por qué importa (impacto para desarrolladores/empresas)
Para las organizaciones que despliegan LLMs a gran escala, el swap de memoria ofrece un camino práctico para reducir costos de GPUs ociosas sin sacrificar la experiencia de usuario. Al permitir que varios modelos compartan las mismas GPUs, los equipos pueden consolidar cargas de trabajo en menos GPUs y cumplir los SLA durante picos de demanda. Este enfoque ayuda a reducir el sobreaprovisionamiento y el costo total de propiedad de las flotas de inferencia, manteniendo tiempos de respuesta adecuados para aplicaciones en tiempo real.
Detalles técnicos o Implementación
El mecanismo de swap depende de transferir modelos entre la memoria de la CPU y la memoria de la GPU, cargándolos bajo demanda, en lugar de mantener todos los modelos residentes en la GPU todo el tiempo. El rendimiento está fuertemente influido por la banda ancha PCIe y el tiempo de intercambio entre la memoria host y la memoria del dispositivo. En los tests, la línea de base caliente (modelos completamente cargados en la GPU) ofrece respuestas cercanas a instantáneas, pero con un costo mayor por ocupación continua de la GPU. En contraste, el swap de memoria permite consolidar cargas de trabajo en menos GPUs y mantener una latencia aceptable para SLAs reales. En términos prácticos, los modelos se cargaron desde la memoria de la CPU a la memoria de la GPU bajo demanda, ejecutando swaps dinámicos para satisfacer las solicitudes de inferencia. Esto demostró que el TTFT puede mantenerse en un rango de pocos segundos incluso con múltiples modelos, con variaciones según la combinación de modelos y la longitud de la entrada. El enfoque es adecuado para aplicaciones donde TTFT por debajo de 10 segundos es aceptable. Cabe señalar que, si bien NVIDIA Run:ai Model Streamer puede ayudar a reducir el TTFT para escenarios scale-from-zero en decenas de segundos, el swap de memoria GPU coloca el TTFT en el dominio sub-10 segundos para muchas implementaciones prácticas. Esta combinación ofrece un equilibrio competitivo entre rendimiento y costo, permitiendo una mayor utilización de GPUs y una mayor flexibilidad de escalamiento.
Conclusiones clave
- El swap de memoria GPU permite que varios modelos compartan GPUs, reduciendo el sobreaprovisionamiento y mejorando la eficiencia del escalado automático.
- En las pruebas, el TTFT con swap estuvo en 2–3 segundos para las combinaciones de modelos evaluadas, una mejora de 50–66x frente a iniciar desde cero.
- La latencia restante está influenciada principalmente por el ancho de banda PCIe y la transferencia entre CPU y GPU, no solo por el tamaño de los modelos.
- Los modelos totalmente cargados ofrecen respuestas casi instantáneas, pero con un costo total mayor debido a la ocupación continua de GPUs.
- Es posible lograr TTFT por debajo de 10 segundos con swap de memoria, lo que facilita la consolidación de cargas en menos GPUs; Run:ai Model Streamer puede ayudar a reducir aún más el TTFT en escenarios scale-from-zero.
FAQ
-
¿Qué es el swap de memoria de GPU y en qué se diferencia de los modelos totalmente cargados?
El swap de memoria carga modelos desde la memoria de la CPU a la memoria de la GPU bajo demanda, permitiendo que varios modelos compartan una misma GPU incluso cuando la memoria total excede la capacidad. Los modelos totalmente cargados requieren GPUs dedicadas todo el tiempo.
-
¿Cómo afecta el swap de memoria la latencia (TTFT) en la práctica?
En los tests citados, el TTFT con swap fue de 2–3 segundos para los emparejamientos evaluados, con variaciones según la longitud de la entrada. Esto representa una mejora sustancial respecto a escalar desde cero, que superaba 140 segundos para modelos pequeños y más de 200 segundos para los modelos más grandes.
-
¿Cuáles son las desventajas de usar swap de memoria frente a modelos completamente cargados?
El principal compromiso es una pequeña pérdida de latencia comparada con modelos completamente cargados, pero con ahorros significativos de costos al usar menos GPUs y una mejor utilización de recursos. Si un TTFT menor a 10 segundos es suficiente para los SLAs, el swap de memoria es una opción atractiva.
-
¿Puede el swap de memoria reemplazar por completo las estrategias de provisionamiento de GPUs?
El enfoque busca optimizar la eficiencia de las inferencias y facilitar la consolidación de cargas en menos GPUs mientras se mantienen SLAs. Las organizaciones pueden adaptar sus estrategias de provisioning según sus SLA y patrones de tráfico, con el swap de memoria como complemento a las herramientas existentes.
Referencias
More news
NVIDIA HGX B200 reduce la intensidad de las emisiones de carbono incorporado
El HGX B200 de NVIDIA reduce la intensidad de carbono incorporado en un 24% frente al HGX H100, al tiempo que ofrece mayor rendimiento de IA y eficiencia energética. Este artículo resume los datos PCF y las novedades de hardware.
Predecir Eventos Climáticos Extremos en Minutos sin Supercomputadora: Huge Ensembles (HENS)
NVIDIA y Berkeley Lab presentan Huge Ensembles (HENS), una herramienta de IA de código abierto que pronostica eventos climáticos raros y de alto impacto usando 27,000 años de datos, con opciones de código abierto o listas para usar.
Cómo reducir cuellos de botella KV Cache con NVIDIA Dynamo
NVIDIA Dynamo offloads KV Cache desde la memoria de la GPU hacia almacenamiento económico, habilitando contextos más largos, mayor concurrencia y costos de inferencia más bajos para grandes modelos y cargas de IA generativa.
Microsoft transforma el sitio de Foxconn en el data center Fairwater AI, descrito como el más poderoso del mundo
Microsoft anuncia planes para un data center Fairwater AI de 1,2 millones de pies cuadrados en Wisconsin, con cientos de miles de GPU Nvidia GB200. El proyecto de 3.3 mil millones de dólares promete un entrenamiento de IA sin precedentes.
Manual de los Grandmasters de Kaggle: 7 Técnicas de Modelado para Datos Tabulares
Un análisis detallado de siete técnicas probadas por los Grandmasters de Kaggle para resolver rápidamente conjuntos de datos tabulares mediante aceleración por GPU, desde baselines variados hasta ensamblaje y pseudo-etiquetado.
NVIDIA RAPIDS 25.08 Agrega Nuevo profiler para cuML, Mejoras en el motor GPU de Polars y Soporte Ampliado de Algoritmos
RAPIDS 25.08 introduce perfiles de nivel de función y de línea para cuml.accel, el ejecutor de streaming por defecto del motor Polars GPU, soporte ampliado de tipos y cadenas, Spectral Embedding en cuML y aceleraciones de cero código para varios estimadores.