Réduire les coûts de déploiement des modèles tout en préservant les performances grâce à l’échange de mémoire GPU

TL;DR

Le déploiement de grands modèles de langage à grande échelle nécessite de choisir entre provisionner davantage de GPU pour les pics ou risquer des SLA non tenus lors des pics de trafic.
Le swap de mémoire GPU, ou hot-swapping des modèles, permet à plusieurs modèles de partager les mêmes GPU même si la mémoire combinée dépasse la capacité, améliorant l’efficacité de l’auto-scalage.
Dans des tests pratiques, le TTFT (temps jusqu’au premier tenseur) avec swap mémoire a été de 2 à 3 secondes pour les paires présentées, soit une amélioration de 50 à 66 fois par rapport au démarrage à partir de zéro.
Comparé aux modèles « chauds » entièrement chargés, le swap mémoire peut offrir des économies substantielles tout en tolérant une légère perte de latence, et aide à consolider les charges sur moins de GPU tout en respectant les SLA.
NVIDIA Run:ai Model Streamer peut aider à réduire le TTFT pour les scénarios scale-from-zero sur des dizaines de secondes, tandis que le swap mémoire pousse le TTFT sous 10 secondes pour de nombreuses applications.

Contexte et panorama

Le déploiement de grands LLMs à l’échelle pose deux défis : assurer des réponses rapides en période de forte demande et maîtriser les coûts GPU. Les opérateurs doivent souvent choisir entre provisionner des GPUs supplémentaires pour les pics ou risquer de manquer des SLA en période de trafic élevé. Le NVIDIA Run:ai propose le swap de mémoire GPU, aussi appelé hot-swapping des modèles, comme mécanisme pour étendre l’utilisation de GPU et améliorer l’efficacité d’auto-scaling pour les charges d’inférence. Cette approche permet à plusieurs modèles de partager les mêmes GPUs, même lorsque leurs besoins en mémoire dépassent la capacité disponible.

Ce qui est nouveau

Le hot-swapping introduit une gestion des ressources plus dynamique dans le service des modèles, permettant à plusieurs charges de travail d’occuper le même matériel. Concrètement, cela signifie une meilleure adaptation à des charges imprévisibles et l’évitement d’un surprovisionnement coûteux. Pour illustrer les performances, NVIDIA a simulé des scénarios d’implantation LLM réalistes. Ils ont évalué deux groupes de modèles :

Groupe 1 : Llama 3.1 8B et Mistral-7B
Groupe 2 : Llama 3.1 8B et Falcon-11B Observations clés :
Le TTFT est limité par la bande passante PCI et le temps nécessaire pour échanger les modèles entre la mémoire CPU et la mémoire GPU.
Pour les deux lots — Llama 3.1 8B Instruct avec Mistral-7B et Llama 3.1 8B Instruct avec Falcon-11B — le TTFT est resté constamment entre 2 et 3 secondes, indépendamment de la taille de l’entrée. Falcon-11B a montré un TTFT légèrement plus long (~0,5 seconde) que Mistral-7B en raison de sa empreinte mémoire plus grande, mais la différence est mineure dans les scénarios réels.
Dans l’ensemble, le swap mémoire a apporté une amélioration d’environ 50–66x du TTFT par rapport au démarrage à partir de zéro, selon le type de modèle et la longueur de l’entrée.
Le scénario de référence avec des modèles déjà chargés dans le GPU (modèles « warmed ») offre des réponses quasi instantanées mais exige des GPUs dédiés tout le temps, ce qui peut être coûteux lorsque les charges varient.
Le swap mémoire réduit le TTFT à quelques secondes, ce qui permet de consolider les charges sur moins de GPUs tout en maintenant des SLA stricts.
Bien que NVIDIA Run:ai Model Streamer puisse aider à réduire le TTFT pour les scénarios scale-from-zero de quelques dizaines de secondes, le swap mémoire GPU pousse le TTFT dans le domaine sub-10 secondes pour de nombreuses applications réelles.

Source : NVIDIA Run:ai GPU memory swap (hot-swapping des modèles) et les résultats de tests sont présentés par NVIDIA dans leur blog développeur. Voir l’article lié pour plus de détails : NVIDIA Run:ai GPU memory swap.

Pourquoi c’est important (impact pour les développeurs et les entreprises)

Pour les organisations déployant des LLMs à l’échelle, le swap mémoire offre une voie pratique pour réduire les coûts GPU inactifs sans compromettre l’expérience utilisateur. En permettant à plusieurs modèles de partager les mêmes GPU, les équipes peuvent consolider les charges sur moins de GPU et maintenir les SLA lors des pics. L’approche contribue à réduire le sur-provisionnement et le coût total de possession des flottes d’inférence, tout en préservant des temps de réponse adaptés aux applications en temps réel.

Détails techniques ou Mise en œuvre

Le mécanisme de swap repose sur le transfert des modèles entre la mémoire CPU et la mémoire GPU, les chargements se faisant à la demande, plutôt que de maintenir tous les modèles résidents sur GPU en permanence. Les performances dépendent principalement de la largeur de bande PCIe et du temps de swap entre mémoire hôte et mémoire de l’appareil. Dans les tests cités, la référence chaude (modèles entièrement chargés sur le GPU) offre des réponses quasi instantanées mais avec un coût plus élevé dû à l’occupation GPU continue. En revanche, le swap mémoire permet de consolider les charges sur moins de GPU et de maintenir une latence acceptable pour les SLAs réels. Concrètement, les modèles ont été chargés depuis la mémoire CPU vers la mémoire GPU à la demande, effectuant des swaps dynamiques pour satisfaire les requêtes d’inférence. Cela démontre que le TTFT peut rester dans la plage de quelques secondes même avec plusieurs modèles, avec des variations selon la combinaison des modèles et la longueur de l’entrée. L’approche est adaptée aux applications où TTFT sous 10 secondes est acceptable. Il faut noter que bien que NVIDIA Run:ai Model Streamer aide à réduire le TTFT pour les scénarios scale-from-zero de dizaines de secondes, le swap mémoire GPU porte le TTFT dans la plage sub-10 secondes pour de nombreuses déploiements pratiques. Cette combinaison offre un équilibre compétitif entre performances et coût, permettant une meilleure utilisation des GPUs et une plus grande flexibilité de mise à l’échelle.

Points à retenir

Le swap mémoire GPU permet à plusieurs modèles de partager les GPUs, réduisant le surprovisionnement et améliorant l’efficience de l’auto-scalage.
Dans les tests, le TTFT avec swap mémoire se situe autour de 2–3 secondes pour les paires de modèles évaluées, soit une amélioration de 50–66x par rapport au démarrage à partir de zéro.
La latence restante est principalement dictée par la largeur de bande PCIe et le transfert entre CPU et GPU, pas seulement par la taille des modèles.
Les modèles complètement chargés offrent des réponses quasi instantanées mais à un coût total plus élevé dû à l’occupation continue du GPU.
Un TTFT inférieur à 10 secondes est atteignable avec swap mémoire, permettant la consolidation des charges sur moins de GPUs ; Run:ai Model Streamer peut aider à réduire encore le TTFT dans les scénarios scale-from-zero.

FAQ

- **Q : Qu’est-ce que le swap de mémoire GPU et en quoi diffère-t-il d’un modèle entièrement chargé ?**

Le swap de mémoire GPU charge les modèles depuis la mémoire CPU vers la mémoire GPU à la demande, permettant à plusieurs modèles de partager une même GPU même si la mémoire totale excède la capacité. Les modèles entièrement chargés nécessitent des GPUs dédiés en permanence. - **Q : Comment le swap de mémoire affecte la latence (TTFT) en pratique ?** **A :** Les tests indiquent un TTFT de 2 à 3 secondes pour les combinaisons étudiées, avec des variations selon la longueur de l’entrée. Cela représente une amélioration significative par rapport au démarrage à partir de zéro, qui dépassait 140 secondes pour les petits modèles et plus de 200 secondes pour les plus grands. - **Q : Quels sont les compromis par rapport à des modèles entièrement chargés ?** **A :** Le principal compromis est une légère perte de latence par rapport à des modèles entièrement chargés, mais avec des économies de coûts importantes grâce à l’utilisation de moins GPUs et à une meilleure utilisation des ressources. Si des TTFT inférieurs à 10 secondes suffisent pour les SLAs, le swap mémoire est une option avantageuse. - **Q : Le swap mémoire peut-il remplacer complètement les stratégies de provisioning ?** **A :** L’approche vise à optimiser l’utilisation des GPUs pour l’inférence et à permettre la consolidation des charges sur moins de GPUs tout en maintenant les SLAs. Les opérateurs peuvent continuer à adapter leurs stratégies de provisioning selon les SLA et les schémas de trafic, le swap mémoire étant un complément utile aux outils existants.

Références

NVIDIA Run:ai GPU memory swap

Réduire les coûts de déploiement des modèles tout en préservant les performances grâce à l’échange de mémoire GPU

TL;DR

Contexte et panorama

Ce qui est nouveau

Pourquoi c’est important (impact pour les développeurs et les entreprises)

Détails techniques ou Mise en œuvre

Points à retenir

FAQ

Références

More news

NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé

Prévoir les phénomènes météorologiques extrêmes en quelques minutes sans superordinateur : Huge Ensembles (HENS)

Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo

Le Playbook des Grands Maîtres Kaggle: 7 Techniques de Modélisation pour Données Tabulaires

Microsoft transforme le site Foxconn en data center Fairwater AI, présenté comme le plus puissant au monde

NVIDIA RAPIDS 25.08 Ajoute un Nouveau Profiler pour cuML, Améliorations du moteur GPU Polars et Support d’Algorithmes Étendu