Réduire la latence de démarrage à froid pour l’inférence LLM avec NVIDIA Run:ai Model Streamer

TL;DR

NVIDIA Run:ai Model Streamer est un SDK Python open source qui lit simultanément les poids du modèle à partir du stockage et les diffuse dans la mémoire GPU pour réduire la latence de démarrage à froid lors de l’inférence des LLM. NVIDIA Dev Blog
Des benchmarks sur différents stockages montrent des réductions significatives du temps de préparation total lorsque l’on utilise Model Streamer, notamment sur les stockages plus performants; dans certains cas, les temps chutent de plus de 70% par rapport à des références comme HF Safetensors Loader ou Tensorizer. NVIDIA Dev Blog
L’étude souligne que le choix du stockage et la concurrence sont des leviers clés pour obtenir des temps d’inférence plus rapides dans les déploiements cloud. NVIDIA Dev Blog

Contexte et contexte technique

Les grandes modèles de langage (LLMs) posent un goulot d’étranglement récurrent: la latence de démarrage à froid. Le chargement des poids du modèle dans la mémoire GPU peut prendre temps, surtout lorsque les modèles nécessitent des dizaines à des centaines de gigaoctets. Dans les environnements cloud, le flux de téléchargement vers la mémoire CPU ajoute encore du retard. NVIDIA présente le Run:ai Model Streamer, un SDK open source qui vise à atténuer ces retards en diffusant les poids vers le GPU et en lisant les tenseurs de manière concurrente. NVIDIA Dev Blog

Quoi de neuf

L’architecture du Model Streamer permet la concurrrence: plusieurs threads lisent les tenseurs depuis le stockage vers la mémoire CPU pendant que d’autres tenseurs sont transférés vers la mémoire GPU, en superposant les E/S et le calcul pour réduire le temps de chargement global. Cette approche exploite la séparation physique entre CPU et GPU pour minimiser l’intervention CPU et maximiser le débit de streaming. NVIDIA Dev Blog
Il reste compatible avec le format Safetensor, évitant les conversions de poids dans les flux de travail courants. Dans les benchmarks, Model Streamer a été comparé au HF Safetensors Loader et au CoreWeave Tensorizer avec le moteur d’inférence vLLM. NVIDIA Dev Blog
Les tests ont utilisé trois types de stockage — GP3 SSD, IO2 SSD et Amazon S3 — et ont mis en évidence que le débit du stockage devient le plafond pratique des gains pour Model Streamer et les autres loaders. NVIDIA Dev Blog
En nuage, Model Streamer a montré des avantages clairs en temps de préparation total par rapport à HF Safetensors Loader et Tensorizer, notamment sur S3. NVIDIA Dev Blog

Pourquoi cela compte (impact pour développeurs/entreprises)

Une latence de cold-start plus faible améliore directement l’expérience utilisateur et l’efficacité opérationnelle du service d’inférence LLM en production. Des chargements plus rapides facilitent des chatbots plus réactifs, une génération de contenu plus rapide et une meilleure évolutivité face à la demande. NVIDIA Dev Blog
Dans les environnements cloud, la capacité à saturer le débit du storage et à superposer les lectures et les transferts vers le GPU aide à réduire le temps total jusqu’à l’inférence, avec des impacts sur les SLAs et le comportement d’auto-scalabilité. NVIDIA Dev Blog
L’étude souligne l’importance d’aligner le stockage et les configurations de concurrence pour améliorer vraiment la performance de serving des LLMs dans des déploiements d’entreprise. NVIDIA Dev Blog

Détails techniques ou implementation

Le Model Streamer accélère le chargement des poids volumineux dans la mémoire GPU depuis des sources de stockage variées, y compris les systèmes de fichiers réseau, le stockage cloud et les disques locaux. L’idée est d lire et de transférer des tenseurs de manière concurrente: certaines parties sont lues de storage vers la mémoire CPU pendant que d’autres sont déplacées vers la mémoire GPU via PCIe, permettant une superposition lecture/écriture et calcul GPU. Le système utilise un backend multithread qui attribue un identifiant unique à chaque tenseur pour permettre une lecture et un transfert parallèles tout en préservant les bordures de tenseur et la disposition des données. Les tests ont été menés sur une instance AWS g5.12xlarge avec GPUs NVIDIA A10G et des CPUs AMD EPYC de 2e génération. NVIDIA Dev Blog

Comparaisons et résultats

Model Streamer vs HF Safetensors Loader et CoreWeave Tensorizer ont été mesurés dans des conditions de cold-start sur GP3 SSD, IO2 SSD et Amazon S3. HF Safetensors Loader utilise un système mappé mémoire pour le chargement zero-copy sur CPU et cudaMemcpy pour GPU; S3 n’est pas pris en charge dans HF Safetensors Loader pour ces tests. Tensorizer diffuse les données tensor par tensor depuis HTTP/HTTPS ou S3, et peut nécessiter des conversions de format. NVIDIA Dev Blog
Sur GP3 SSD, Model Streamer a atteint un débit proche de 1 GiB/s; l’effet de la concurrence est clair: à 1 thread, temps ≈ 47,56 s; à concurrence 16, ≈ 14,34 s. HF Safetensors Loader ≈ 47,99 s; Tensorizer va de 50,74 s (1 worker) à 16,11 s (16 workers), avec un débit proche du gabarit du GP3. Le goulot d’étranglement était le stockage GP3. NVIDIA Dev Blog
Avec IO2 SSD, les gains sont plus marqués pour Model Streamer: 43,71 s à 1 thread; 8 travailleurs donnent 7,53 s. HF Safetensors Loader est autour de 47 s; Tensorizer atteint 10,36 s avec huit workers (débit ≈ 2 GiB/s). Les plafonds pratiques autour de 2 GiB/s pour Model Streamer et 1,6 GiB/s pour Tensorizer indiquent des limites d’infrastructure AWS plutôt que des limites des chargeurs. NVIDIA Dev Blog
En S3, Model Streamer est comparé à Tensorizer (HF Safetensors Loader n’est pas supporté sur S3). Le meilleur résultat Tensorizer est obtenu avec 16 workers; Model Streamer dépasse à toutes les concurrences: par exemple, concurrence 4 donne 28,24 s pour Model Streamer et 37,36 s pour Tensorizer. Les tests sur S3 ont aussi mis en évidence des caches AWS S3 lorsque les tests sont répétés rapidement, d’où la nécessité d’un délai minimum pour obtenir des résultats froids. NVIDIA Dev Blog

Résultats consolidés pour les intégrations vLLM

Pour les tests avec vLLM et Model Streamer, le temps total de préparation est de 35,08 s sur GP3 et 28,28 s sur IO2, par rapport à 66,13 s et 62,69 s pour HF Safetensors Loader. Tensorizer donne 36,19 s sur GP3 et 30,88 s sur IO2. Sur S3, Model Streamer atteint 23,18 s contre 65,18 s pour Tensorizer. Ces chiffres démontrent l’efficacité du Model Streamer dans les scénarios de stockage variés. NVIDIA Dev Blog

Consignes pratiques et configuration

Les résultats renforcent le rôle clé du débit du storage et de la concurrence: des stockages plus performants combinés à des niveaux de concurrence optimisés offrent les meilleurs gains pour Model Streamer dans le cloud. NVIDIA Dev Blog
Sur S3, Model Streamer montre un avantage net sur Tensorizer; toutefois, des effets de caching sur S3 exigent des fenêtres de test contrôlées pour simuler des conditions froides. NVIDIA Dev Blog
La compatibilité avec le format Safetensor permet d’adopter Model Streamer sans conversions lourdes de format dans la plupart des flux de travail existants. NVIDIA Dev Blog

FAQ

Q: Qu’est-ce que Model Streamer et quel problème résout-il ?\n A: C’est un SDK open source qui lit les poids du modèle depuis le storage de manière concurrente et les diffuse dans la mémoire GPU, réduisant la latence de démarrage à froid pour l’inférence des LLM. NVIDIA Dev Blog
Q: Comment la concurrence influence les temps de chargement ?\n A: Augmenter la concurrence diminue fortement le temps de chargement en superposant les lectures et les transferts GPU; GP3 et IO2 montrent des gains marqués lorsque la concurrence est ajustée. NVIDIA Dev Blog
Q: Comment compare-t-il avec HF Safetensors Loader et Tensorizer ?\n A: Dans les scénarios testés, Model Streamer est généralement plus rapide, surtout sur storage haute performance et en nuage (S3); les résultats varient selon le storage et la concurrence. NVIDIA Dev Blog
Q: Y a-t-il des limitations liées au storage ?\n A: Oui. Même avec une forte concurrence, les limites pratiques de débit des stockages GP3/IO2 peuvent freiner les gains; l’étude souligne des plafonds d’infrastructure AWS. NVIDIA Dev Blog
Q: La compatibilité Safetensor est-elle maintenue ?\n A: Oui, le modèle Streamer reste compatible avec Safetensor, évitant des conversions lourdes dans de nombreux flux de travail. NVIDIA Dev Blog

Références

NVIDIA Dev Blog: Reducing Cold Start Latency for LLM Inference with NVIDIA Run:ai Model Streamer — https://developer.nvidia.com/blog/reducing-cold-start-latency-for-llm-inference-with-nvidia-runai-model-streamer/

Réduire la latence de démarrage à froid pour l’inférence LLM avec NVIDIA Run:ai Model Streamer

TL;DR

Contexte et contexte technique

Quoi de neuf

Pourquoi cela compte (impact pour développeurs/entreprises)

Détails techniques ou implementation

Comparaisons et résultats

Résultats consolidés pour les intégrations vLLM

Consignes pratiques et configuration

FAQ

Références

More news

NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé

Scaleway rejoint les Fournisseurs d’Inference de Hugging Face pour une Inférence Serverless et Faible Latence

Prévoir les phénomènes météorologiques extrêmes en quelques minutes sans superordinateur : Huge Ensembles (HENS)

Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo

Le Playbook des Grands Maîtres Kaggle: 7 Techniques de Modélisation pour Données Tabulaires

Microsoft transforme le site Foxconn en data center Fairwater AI, présenté comme le plus puissant au monde