Déployer vos apps Kit Omniverse à grande échelle
Sources: https://developer.nvidia.com/blog/deploying-your-omniverse-kit-apps-at-scale, https://developer.nvidia.com/blog/deploying-your-omniverse-kit-apps-at-scale/, NVIDIA Dev Blog
Overview
NVIDIA Omniverse Kit App Streaming est conçu pour réduire la friction d’installation en diffusant les applications basées sur Kit directement dans un navigateur. L’exécution et le streaming côté serveur s’effectuent sur des GPU RTX NVIDIA, permettant une interaction à faible latence pour les charges de travail de jumeaux numériques et de simulation complexes. Les utilisateurs accèdent aux applications via un navigateur Chromium ou un client web, sans besoin de matériel local puissant. L’architecture de streaming prend en charge les déploiements sur site et dans le cloud et expose un modèle Kubernetes-native pour une diffusion à l’échelle. Omniverse Kit App Streaming est un ensemble d’API et d’extensions Kit qui diffusent des applications industrielles et d’IA physique basées sur OpenUSD, développées avec le Kit SDK. Cette approche permet le streaming vers les clients où qu’ils soient, en toute sécurité et à grande échelle, avec des GPU à la demande fournis par des services tels qu’Azure, AWS ou des clusters sur site. Les GPU RTX Pro 6000 Blackwell Server Edition sont mentionnés comme partie du pool serveur pour les charges lourdes.
Key features
- Accès via navigateur au streaming des apps Kit avec signalisation WebRTC et extensions centrales
- Exécution côté serveur sur GPUs NVIDIA RTX pour des visualisations et simulations exigeantes
- Options de déploiement flexibles: sur site, cloud et chemins gérés
- Architecture de streaming Kubernetes-native avec microservices conteneurisés
- Kit App Template avec viewer web intégré et prise en charge du streaming
- Flux de travail automatisés de construction, test, empaquetage et déploiement alignés sur le template
- Script d’empaquetage en container produisant une image Docker prête pour le déploiement
- Intégration avec le NVIDIA NGC Private Registry pour la distribution d’images
- Déploiement déclaratif via des outils Kubernetes et Helm
- Azure Marketplace avec template de solution préconfiguré pour un démarrage rapide
- Chemin entièrement géré via NVIDIA Omniverse sur DGX Cloud
- Exemples réels comme Siemens Teamcenter Digital Reality Viewer, Sight Machine Operator Agent et Hexagon HxDR Reality Cloud Studio
- Références et guides officiels de déploiement pour des instructions à jour
Common use cases
- Fournir des visualisations 3D immersives via le navigateur et des simulations industrielles sans nécessiter d’installation logicielle locale
- Faire évoluer les flux de travail IA industrielle avec streaming GPU à la demande pour des domaines comme l’architecture, l’ingénierie et la fabrication
- Disposer d’une plateforme de streaming centralisée dans le cloud ou sur site, avec des visualisations haute fidélité depuis des ordinateurs portables courants
- Déployer des apps de streaming via des templates prêts à l’emploi ou via Azure Marketplace pour accélérer la valeur
- Exécuter des workloads de streaming sur un cluster GPU central, facilitant la collaboration et les retours en temps réel
- Utiliser DGX Cloud pour simplifier le provisionnement, l’évolutivité et la maintenance des ressources GPU tout en se concentrant sur le développement d’applications
Setup & installation
Note: La documentation source met l’accent sur les workflows, templates et déploiement via Helm, mais ne fournit pas de commandes exactes. Ce qui suit décrit les étapes et points de référence. Pour les commandes exactes, consultez le dépôt Kit App Template et les guides officiels de déploiement.
- Explorer la documentation et le Kit App Template
- Examiner la documentation Omniverse Kit App Streaming pour comprendre les microservices conteneurisés et leur interaction dans une expérience Kubernetes-native.
- Utiliser le Kit App Template viewer web intégré, incluant les composants de streaming tels que la signalisation WebRTC, les messages et les extensions centrales. Lors de la génération d’une nouvelle app, activer une couche de streaming telle que omni_default_streaming pour garantir l’inclusion des services requis.
- Construire, tester et valider localement ou dans un sandbox
- Construire votre application Kit en utilisant le flux de travail du template.
- Valider fonctionnalité et performance dans un environnement de test, qui peut être local ou cloud avec GPU. Reportez-vous à la documentation de test Kit App pour les détails.
- Conteneuriser l’application
- Après construction et test, conteneuriser votre application à l’aide du script d’empaquetage intégré sur une station Linux. Le script produit une image Docker prête au déploiement, incluant toutes les dépendances et extensions de streaming. Poussez l’image dans un registre accessible par votre environnement de déploiement (par exemple, le NVIDIA NGC Private Registry).
- Déployer sur un cluster Kubernetes
- Déployez les services principaux Omniverse Kit App Streaming à l’aide des charts Helm officiels de NVIDIA sur un cluster Kubernetes équipé de GPUs.
- Enregistrez votre image container auprès de votre instance Omniverse Kit App Streaming via les outils Kubernetes natifs pour un contrôle déclaratif de lancement et d’évolutivité.
- Chemins de déploiement optionnels
- Azure Marketplace: utilisez le template de solution préconfiguré pour provisionner l’infrastructure et les services automatiquement, puis téléversez votre application containerisée.
- DGX Cloud: exploitez le chemin entièrement géré où NVIDIA s’occupe du provisionnement, de l’évolutivité et de la maintenance des ressources GPU.
- Références et préparation à la production
- Consultez les guides officiels de déploiement et les vues architecturales pour des instructions et meilleures pratiques détaillées. Examinez des déploiements réels comme Siemens Teamcenter Digital Reality Viewer et Sight Machine Operator Agent.
Remarque: Le matériel source encourage de suivre les instructions à jour dans le dépôt template et les guides officiels. Les commandes exactes et les valeurs Helm sont contextuelles et susceptibles d’évoluer.
Quick start (exemple minimal exécutable)
- Le matériel ne fournit pas un seul script exécutable minimal. Un exemple minimal dépend du flux Kit App Template, du script d’empaquetage et d’un manifeste de déploiement Kubernetes géré par Helm. En l’absence de commandes explicites dans l’extrait, aucun exemple minimal exécutable n’est fourni ici. Reportez-vous au dépôt du template officiel et aux guides de déploiement pour un démarrage concret.
Pros and cons
- Avantages
- Accès via navigateur éliminant le besoin de matériel GPU local haut de gamme
- Options de déploiement flexibles entre sur site, cloud et chemins gérés
- Streaming Kubernetes-native avec microservices conteneurisés pour la scalabilité
- Viewer template avec signalisation WebRTC simplifie l’intégration
- Azure Marketplace et DGX Cloud proposent un démarrage rapide et une infrastructure gérée
- Exemples réels illustrant l’applicabilité en production
- Inconvénients
- Déploiements gérés soi-même exigent le contrôle des services centraux de streaming et une discipline opérationnelle
- Les commandes exactes et configurations évoluent; il faut suivre les guides et templates officiels
- La configuration initiale implique plusieurs composants (containers, Helm, registries, GPUs), ce qui peut ajouter de la complexité
Alternatives (brève comparaison)
| Chemin | Caractéristiques clés | Inconvénients |---|---|---| | Kubernetes auto-géré (sur site ou cloud) avec Helm | Contrôle total sur les services de streaming | Complexité opérationnelle plus élevée ; gestion de Helm, CRDs et sécurité |Azure Marketplace template préconfiguré | Infrastructure centrale préprovisionnée | Limitations potentielles de personnalisation et conditions du fournisseur |DGX Cloud géré | NVIDIA gère provisioning, scalabilité et GPUs | Moins de contrôle sur l’infrastructure ; dépendance DGX Cloud |Exemples d’implémentation (Siemens, Sight Machine, Hexagon) | Cas réels montrant une chaîne complète | La personnalisation dépend de l’organisation; servent d’exemples, non de solution unique |
Pricing or License
Les détails de tarification ou de licence ne sont pas explicitement fournis dans le matériel source. Le contenu décrit des architectures, des chemins de déploiement et des templates mais ne présente pas de tableau de prix ou de termes de licence. Veuillez consulter Azure Marketplace, les tarifs DGX Cloud et les termes de licence NVIDIA dans les guides référencés pour des informations à jour.
References
- https://developer.nvidia.com/blog/deploying-your-omniverse-kit-apps-at-scale/
- Guides officiels de déploiement et dépôt Kit App Template (référence dans l’article)
More resources
CUDA Toolkit 13.0 pour Jetson Thor : Écosystème Arm Unifié et Plus
Kit CUDA unifié pour Arm sur Jetson Thor avec cohérence mémoire complète, partage du GPU entre processus, interop OpenRM/dmabuf, support NUMA et outils améliorés pour l’embarqué et le serveur.
Réduire les coûts de déploiement des modèles tout en conservant les performances grâce au swap de mémoire GPU
Exploitez le swap mémoire GPU (hot-swapping de modèles) pour partager les GPUs entre plusieurs LLM, réduire les coûts inoccupés et améliorer l’auto-Scaling tout en respectant les SLA.
Amélioration de l’auto-tuning GEMM avec nvMatmulHeuristics dans CUTLASS 4.2
Présente nvMatmulHeuristics pour sélectionner rapidement un petit ensemble de configurations de kernels GEMM à fort potentiel pour CUTLASS 4.2, réduisant considérablement le temps de tuning tout en approchant les performances d’une Recherche Exhaustive.
Accélérez ZeroGPU Spaces avec la compilation ahead-of-time (AoT) de PyTorch
Découvrez comment la compilation AoT de PyTorch accélère ZeroGPU Spaces en exportant un modèle compilé et en le rechargeant instantanément, avec quantification FP8, formes dynamiques et intégration au flux Spaces GPU.
Fine-Tuning gpt-oss pour la précision et les performances avec l’entraînement par quantisation (QAT)
Guide du fine-tuning de gpt-oss utilisant SFT + QAT pour récupérer la précision FP4 tout en préservant l’efficacité, avec upcast vers BF16, MXFP4, NVFP4 et déploiement avec TensorRT-LLM.
Comment les petits modèles linguistiques contribuent à une IA agentique évolutive
Explique comment les petits modèles linguistiques permettent une IA agentique plus rentable et flexible, aux côtés des LLMs, via NVIDIA NeMo et Nemotron Nano 2.