Réduire la latence de démarrage à froid pour l’inférence LLM avec NVIDIA Run:ai Model Streamer
Sources: https://developer.nvidia.com/blog/reducing-cold-start-latency-for-llm-inference-with-nvidia-runai-model-streamer, https://developer.nvidia.com/blog/reducing-cold-start-latency-for-llm-inference-with-nvidia-runai-model-streamer/, NVIDIA Dev Blog
TL;DR
- NVIDIA Run:ai Model Streamer est un SDK Python open source qui lit simultanément les poids du modèle à partir du stockage et les diffuse dans la mémoire GPU pour réduire la latence de démarrage à froid lors de l’inférence des LLM. NVIDIA Dev Blog
- Des benchmarks sur différents stockages montrent des réductions significatives du temps de préparation total lorsque l’on utilise Model Streamer, notamment sur les stockages plus performants; dans certains cas, les temps chutent de plus de 70% par rapport à des références comme HF Safetensors Loader ou Tensorizer. NVIDIA Dev Blog
- L’étude souligne que le choix du stockage et la concurrence sont des leviers clés pour obtenir des temps d’inférence plus rapides dans les déploiements cloud. NVIDIA Dev Blog
Contexte et contexte technique
Les grandes modèles de langage (LLMs) posent un goulot d’étranglement récurrent: la latence de démarrage à froid. Le chargement des poids du modèle dans la mémoire GPU peut prendre temps, surtout lorsque les modèles nécessitent des dizaines à des centaines de gigaoctets. Dans les environnements cloud, le flux de téléchargement vers la mémoire CPU ajoute encore du retard. NVIDIA présente le Run:ai Model Streamer, un SDK open source qui vise à atténuer ces retards en diffusant les poids vers le GPU et en lisant les tenseurs de manière concurrente. NVIDIA Dev Blog
Quoi de neuf
- L’architecture du Model Streamer permet la concurrrence: plusieurs threads lisent les tenseurs depuis le stockage vers la mémoire CPU pendant que d’autres tenseurs sont transférés vers la mémoire GPU, en superposant les E/S et le calcul pour réduire le temps de chargement global. Cette approche exploite la séparation physique entre CPU et GPU pour minimiser l’intervention CPU et maximiser le débit de streaming. NVIDIA Dev Blog
- Il reste compatible avec le format Safetensor, évitant les conversions de poids dans les flux de travail courants. Dans les benchmarks, Model Streamer a été comparé au HF Safetensors Loader et au CoreWeave Tensorizer avec le moteur d’inférence vLLM. NVIDIA Dev Blog
- Les tests ont utilisé trois types de stockage — GP3 SSD, IO2 SSD et Amazon S3 — et ont mis en évidence que le débit du stockage devient le plafond pratique des gains pour Model Streamer et les autres loaders. NVIDIA Dev Blog
- En nuage, Model Streamer a montré des avantages clairs en temps de préparation total par rapport à HF Safetensors Loader et Tensorizer, notamment sur S3. NVIDIA Dev Blog
Pourquoi cela compte (impact pour développeurs/entreprises)
- Une latence de cold-start plus faible améliore directement l’expérience utilisateur et l’efficacité opérationnelle du service d’inférence LLM en production. Des chargements plus rapides facilitent des chatbots plus réactifs, une génération de contenu plus rapide et une meilleure évolutivité face à la demande. NVIDIA Dev Blog
- Dans les environnements cloud, la capacité à saturer le débit du storage et à superposer les lectures et les transferts vers le GPU aide à réduire le temps total jusqu’à l’inférence, avec des impacts sur les SLAs et le comportement d’auto-scalabilité. NVIDIA Dev Blog
- L’étude souligne l’importance d’aligner le stockage et les configurations de concurrence pour améliorer vraiment la performance de serving des LLMs dans des déploiements d’entreprise. NVIDIA Dev Blog
Détails techniques ou implementation
Le Model Streamer accélère le chargement des poids volumineux dans la mémoire GPU depuis des sources de stockage variées, y compris les systèmes de fichiers réseau, le stockage cloud et les disques locaux. L’idée est d lire et de transférer des tenseurs de manière concurrente: certaines parties sont lues de storage vers la mémoire CPU pendant que d’autres sont déplacées vers la mémoire GPU via PCIe, permettant une superposition lecture/écriture et calcul GPU. Le système utilise un backend multithread qui attribue un identifiant unique à chaque tenseur pour permettre une lecture et un transfert parallèles tout en préservant les bordures de tenseur et la disposition des données. Les tests ont été menés sur une instance AWS g5.12xlarge avec GPUs NVIDIA A10G et des CPUs AMD EPYC de 2e génération. NVIDIA Dev Blog
Comparaisons et résultats
- Model Streamer vs HF Safetensors Loader et CoreWeave Tensorizer ont été mesurés dans des conditions de cold-start sur GP3 SSD, IO2 SSD et Amazon S3. HF Safetensors Loader utilise un système mappé mémoire pour le chargement zero-copy sur CPU et cudaMemcpy pour GPU; S3 n’est pas pris en charge dans HF Safetensors Loader pour ces tests. Tensorizer diffuse les données tensor par tensor depuis HTTP/HTTPS ou S3, et peut nécessiter des conversions de format. NVIDIA Dev Blog
- Sur GP3 SSD, Model Streamer a atteint un débit proche de 1 GiB/s; l’effet de la concurrence est clair: à 1 thread, temps ≈ 47,56 s; à concurrence 16, ≈ 14,34 s. HF Safetensors Loader ≈ 47,99 s; Tensorizer va de 50,74 s (1 worker) à 16,11 s (16 workers), avec un débit proche du gabarit du GP3. Le goulot d’étranglement était le stockage GP3. NVIDIA Dev Blog
- Avec IO2 SSD, les gains sont plus marqués pour Model Streamer: 43,71 s à 1 thread; 8 travailleurs donnent 7,53 s. HF Safetensors Loader est autour de 47 s; Tensorizer atteint 10,36 s avec huit workers (débit ≈ 2 GiB/s). Les plafonds pratiques autour de 2 GiB/s pour Model Streamer et 1,6 GiB/s pour Tensorizer indiquent des limites d’infrastructure AWS plutôt que des limites des chargeurs. NVIDIA Dev Blog
- En S3, Model Streamer est comparé à Tensorizer (HF Safetensors Loader n’est pas supporté sur S3). Le meilleur résultat Tensorizer est obtenu avec 16 workers; Model Streamer dépasse à toutes les concurrences: par exemple, concurrence 4 donne 28,24 s pour Model Streamer et 37,36 s pour Tensorizer. Les tests sur S3 ont aussi mis en évidence des caches AWS S3 lorsque les tests sont répétés rapidement, d’où la nécessité d’un délai minimum pour obtenir des résultats froids. NVIDIA Dev Blog
Résultats consolidés pour les intégrations vLLM
- Pour les tests avec vLLM et Model Streamer, le temps total de préparation est de 35,08 s sur GP3 et 28,28 s sur IO2, par rapport à 66,13 s et 62,69 s pour HF Safetensors Loader. Tensorizer donne 36,19 s sur GP3 et 30,88 s sur IO2. Sur S3, Model Streamer atteint 23,18 s contre 65,18 s pour Tensorizer. Ces chiffres démontrent l’efficacité du Model Streamer dans les scénarios de stockage variés. NVIDIA Dev Blog
Consignes pratiques et configuration
- Les résultats renforcent le rôle clé du débit du storage et de la concurrence: des stockages plus performants combinés à des niveaux de concurrence optimisés offrent les meilleurs gains pour Model Streamer dans le cloud. NVIDIA Dev Blog
- Sur S3, Model Streamer montre un avantage net sur Tensorizer; toutefois, des effets de caching sur S3 exigent des fenêtres de test contrôlées pour simuler des conditions froides. NVIDIA Dev Blog
- La compatibilité avec le format Safetensor permet d’adopter Model Streamer sans conversions lourdes de format dans la plupart des flux de travail existants. NVIDIA Dev Blog
FAQ
- Q: Qu’est-ce que Model Streamer et quel problème résout-il ?\n A: C’est un SDK open source qui lit les poids du modèle depuis le storage de manière concurrente et les diffuse dans la mémoire GPU, réduisant la latence de démarrage à froid pour l’inférence des LLM. NVIDIA Dev Blog
- Q: Comment la concurrence influence les temps de chargement ?\n A: Augmenter la concurrence diminue fortement le temps de chargement en superposant les lectures et les transferts GPU; GP3 et IO2 montrent des gains marqués lorsque la concurrence est ajustée. NVIDIA Dev Blog
- Q: Comment compare-t-il avec HF Safetensors Loader et Tensorizer ?\n A: Dans les scénarios testés, Model Streamer est généralement plus rapide, surtout sur storage haute performance et en nuage (S3); les résultats varient selon le storage et la concurrence. NVIDIA Dev Blog
- Q: Y a-t-il des limitations liées au storage ?\n A: Oui. Même avec une forte concurrence, les limites pratiques de débit des stockages GP3/IO2 peuvent freiner les gains; l’étude souligne des plafonds d’infrastructure AWS. NVIDIA Dev Blog
- Q: La compatibilité Safetensor est-elle maintenue ?\n A: Oui, le modèle Streamer reste compatible avec Safetensor, évitant des conversions lourdes dans de nombreux flux de travail. NVIDIA Dev Blog
Références
- NVIDIA Dev Blog: Reducing Cold Start Latency for LLM Inference with NVIDIA Run:ai Model Streamer — https://developer.nvidia.com/blog/reducing-cold-start-latency-for-llm-inference-with-nvidia-runai-model-streamer/
More news
NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé
Le HGX B200 de NVIDIA abaisse l’intensité des émissions de carbone incorporé de 24% par rapport au HGX H100, tout en offrant de meilleures performances IA et une efficacité énergétique accrue. Cet article résume les données PCF et les nouveautés matérielles.
Scaleway rejoint les Fournisseurs d’Inference de Hugging Face pour une Inférence Serverless et Faible Latence
Scaleway est désormais un Fournisseur d’Inference pris en charge sur Hugging Face Hub, permettant l’inférence serverless directement sur les pages de modèles avec les SDK JS et Python. Accédez à des modèles open-weight populaires et bénéficiez d’une latence réduite.
Prévoir les phénomènes météorologiques extrêmes en quelques minutes sans superordinateur : Huge Ensembles (HENS)
NVIDIA et le Lawrence Berkeley National Laboratory présentent Huge Ensembles (HENS), un outil IA open source qui prévoit des événements météorologiques rares et à fort impact sur 27 000 années de données, avec des options open source ou prêtes à l’emploi.
Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo
NVIDIA Dynamo déporte le KV Cache depuis la mémoire GPU vers un stockage économique, permettant des contextes plus longs, une meilleure concurrence et des coûts d’inférence réduits pour les grands modèles et les charges AI génératives.
Le Playbook des Grands Maîtres Kaggle: 7 Techniques de Modélisation pour Données Tabulaires
Analyse approfondie de sept techniques éprouvées par les Grands Maîtres Kaggle pour résoudre rapidement des ensembles de données tabulaires à l’aide d’une accélération GPU, des baselines divers à l’assemblage et à la pseudo-étiquetage.
Microsoft transforme le site Foxconn en data center Fairwater AI, présenté comme le plus puissant au monde
Microsoft dévoile des plans pour un data center Fairwater AI de 1,2 million de mètres carrés au Wisconsin, abritant des centaines de milliers de GPU Nvidia GB200. Le projet de 3,3 milliards de dollars promet un entraînement IA sans précédent.