Déployer une inférence IA scalable avec NVIDIA NIM Operator 3.0.0

TL;DR

NVIDIA NIM Operator 3.0.0 élargit les options de déploiement pour les microservices NVIDIA NIM et NVIDIA NeMo sur Kubernetes.
Il prend en charge des NIM spécifiques par domaine (biologie, voix, récupération) et diverses options de déploiement, y compris multi-LLM et multi-nœuds.
L’intégration avec KServe est disponible pour les déploiements raw et serverless, avec autoscaling et gestion du cycle de vie via les CRD InferenceService.
Deep Resource Allocation (DRA) est disponible en version technologique (tech preview) pour gérer les attributs GPU via ResourceClaim et ResourceClaimTemplate.
Red Hat a contribué à permettre le déploiement NIM sur KServe, avec cache de modèles et NeMo Guardrails pour une IA digne de confiance. Cette version vise des pipelines d’inférence IA scalables et résilients pour de grands modèles et des charges multimodales, notamment chatbots, flux RAG pilotés par agents et discovery virtuelle de médicaments, tout en s’alignant sur NVIDIA AI Enterprise pour le support entreprise et les mises à jour de sécurité. Pour plus de détails, consultez le blog officiel NVIDIA Dev : https://developer.nvidia.com/blog/deploy-scalable-ai-inference-with-nvidia-nim-operator-3-0-0/

Contexte et antécédents

Le paysage des modèles IA évolue rapidement, avec des moteurs d’inférence, des backends et des cadres distribués de plus en plus complexes. Déployer ces pipelines de manière efficace est un véritable défi opérationnel pour les organisations qui construisent des solutions IA à grande échelle. NVIDIA NIM Operator aide les administrateurs de clusters Kubernetes à opérer les composants logiciels et services pour exécuter les microservices d’inférence NVIDIA NIM destinés aux LLM et modèles multimodaux — couvrant raisonnation, récupération, vision, parole, biologie, etc. La version 3.0.0 élargit ces capacités pour simplifier, optimiser et stabiliser les déploiements dans divers environnements Kubernetes. NVIDIA a également collaboré avec Red Hat pour permettre le déploiement de NIM sur KServe. Cette contribution facilite les déploiements NIM qui bénéficient de la gestion du cycle de vie de KServe et du caching de modèles, tout en activant des capacités NeMo comme NeMo Guardrails pour une IA de confiance sur les points de terminaison d’inférence KServe. Cette collaboration illustre l’écosystème croissant autour de l’inférence IA scalable, en combinant les logiciels NVIDIA et les plateformes Kubernetes d’entreprise. Les déploiements NIM ont été utilisés pour diverses applications, notamment les chatbots, les flux RAG basés sur la récupération et des domaines comme la biologie et la découverte virtuelle de médicaments. La nouvelle version met l’accent sur la facilité d’utilisation, la fiabilité et l’interopérabilité avec les outils cloud-native existants.

Nouvelles fonctionnalités

La version NIM Operator 3.0.0 apporte plusieurs améliorations destinées à simplifier et optimiser le déploiement des microservices NVIDIA NIM et NVIDIA NeMo sur Kubernetes :

Options de déploiement faciles et rapides pour NIM : prise en charge des NIM par domaine (biologie, voix, récupération) et diverses options de déploiement, y compris multi-LLM et multi-nœuds. À noter, les déploiements multi-nœuds sans GPUDirect RDMA peuvent provoquer des timeouts de chargement de shards et des redémarrages des pods maîtres/ouvriers ; des réseaux rapides (IPoIB ou ROCE) sont recommandés et configurables via NVIDIA Network Operator.
Intégration avec KServe : prise en charge des déploiements raw et serverless via la configuration du InferenceService CRD pour gérer déploiement, mises à niveau et autoscaling. L’opérateur configure automatiquement les variables d’environnement et les ressources requises dans les CRD du InferenceService, simplifiant l’intégration Kubernetes.
Intégration DRA (Deep Resource Allocation) : DRA offre une gestion GPU plus flexible en permettant de définir des classes d’appareils GPU, de demander des GPUs selon ces classes et de filtrer selon les charges de travail. Cette fonctionnalité est en version technologique (tech preview) et sera pleinement prise en charge bientôt. Les exemples montrent les ressources sur le NIM Pod via les CRD du NIM Service et du NIM Pipeline.
NeMo et améliorations de l’écosystème : la release continue de supporter les capacités de NeMo, y compris NeMo Guardrails pour une IA fiable et le cache de modèles via NIM cache, pour des flux d’inférence efficaces.
Collaboration Red Hat et gestion du cycle de vie avec KServe : ce partenariat permet des déploiements NIM sur KServe avec gestion du cycle de vie et cache de modèles, renforçant les capacités d’IA fiable sur les endpoints d’inférence KServe.
Validation pratique : l’article présente un exemple de déploiement de Llama 3 8B Instruct NIM sur Kubernetes via le NIM Operator, incluant vérification du statut du service et des pods et test via curl. Ces changements facilitent le déploiement d’inférence IA scalable, que ce soit pour du multi-LLM ou du multi-nœud, l’optimisation de l’usage GPU avec DRA, ou le déploiement sur KServe. La release souligne l’adéquation avec NVIDIA AI Enterprise pour le support entreprise, la stabilité de l’API et les correctifs de sécurité proactifs.

Pourquoi c’est important (impact pour développeurs/entreprises)

Pour les développeurs et entreprises construisant des pipelines IA en production, la version 3.0.0 apporte des bénéfices concrets :

Déploiement facilité : le support de NIM par domaine et les modes de déploiement variés permettent de choisir rapidement la configuration adaptée sans surcroît d’ingénierie infrastructurelle.
Cycle de vie Kubernetes et autoscaling natifs : l’intégration avec KServe via les CRD InferenceService permet des mises à jour automatiques, une montée en charge et une surveillance cohérentes avec les pratiques Kubernetes existantes.
Utilisation efficace des GPUs : DRA fournit un moyen flexible d’allouer des ressources GPU pour les charges NIM, avec un contrôle précis des attributs matériels comme l’architecture et la mémoire, essentiel pour les grands LLM et les modèles multimodaux.
Fiabilité et sécurité accrues : NeMo Guardrails soutient une IA fiable sur les endpoints KServe, et NVIDIA AI Enterprise assure le support entreprise, la stabilité des API et des patches de sécurité proactifs.
Écosystème et support : la collaboration avec Red Hat élargit l’accès aux déploiements NIM sur KServe, en associant les capacités d’inférence NIM à la gestion du cycle de vie et au cache des modèles du KServe. Concrètement, les opérateurs peuvent déployer, dimensionner et gérer les microservices NIM et NeMo plus efficacement, accélérant la transition du développement à la production pour les flux IA. Ils peuvent s’appuyer sur les outils Kubernetes existants tout en bénéficiant du support et des optimisations NVIDIA.

Détails techniques ou Mise en œuvre

Ce segment présente les aspects techniques et les considérations d’implémentation mis en évidence dans la version :

Options de déploiement et NIMs par domaine : les utilisateurs peuvent déployer des NIMs par domaine (biologie, voix, récupération) ou diverses options de déploiement, y compris multi-LLM et multi-nœuds. Les déploiements multi-nœuds sans GPUDirect RDMA peuvent provoquer des timeouts de chargement des shards ; des réseaux rapides (IPoIB ou ROCE) sont recommandés et configurables via NVIDIA Network Operator.
Intégration DRA (tech preview) : DRA permet une gestion GPU plus flexible via ResourceClaim et ResourceClaimTemplate sur les NIM Pods à travers les CRD du NIM Service et du NIM Pipeline. On peut créer ses propres claims ou laisser l’opérateur NIM les gérer automatiquement. DRA supporte des attributs tels que l’architecture et la mémoire pour filtrer les charges de travail selon les besoins. Cette fonctionnalité est en démonstration technologique avec un support complet à venir.
Intégration avec KServe et CRD InferenceService : l’opérateur prend en charge les déploiements raw et serverless en configurant le CRD InferenceService pour gérer déploiement, upgrades et autoscaling. L’opérateur configure automatiquement les variables d’environnement et les ressources requises dans les CRD, simplifiant l’intégration avec Kubernetes.
Méthodologies de déploiement avec KServe : deux approches sont présentées—RawDeployment et Serverless. Serverless active l’autoscaling via des annotations Kubernetes.
Démonstration et test : l’article montre un déploiement de Llama 3 8B Instruct NIM sur Kubernetes via le NIM Operator, avec vérifications du statut du service et des pods et tests curl.
Tableau : options de déploiement

Option de déploiement	Description
RawDeployment	Déploiement direct géré par le NIM Operator et CRD InferenceService.
Serverless	Déploiement avec autoscaling via les annotations KServe.

Écosystème et support : le NIM Operator fait partie de NVIDIA AI Enterprise, garantissant un support entreprise, une stabilité de l’API et des patches de sécurité proactifs. Les instructions de démarrage renvoient à NGC ou au dépôt GitHub NVIDIA/k8s-nim-operator pour l’installation et l’usage.

Points clés

NIM Operator 3.0.0 élargit les modes de déploiement pour NIM et NeMo sur Kubernetes, y compris multi-LLM et multi-nœud.
DRA offre un chemin technologique pour un contrôle plus fin des ressources GPU par workload.
L’intégration KServe, avec les modes RawDeployment et Serverless, simplifie le cycle de vie, les upgrades et l’autoscaling des services d’inférence IA.
La collaboration Red Hat renforce le déploiement NIM sur KServe avec cache de modèles et NeMo Guardrails, améliorant l’IA fiable.
La release met l’accent sur la préparation à la production via NVIDIA AI Enterprise et offre une voie claire pour passer du développement à la production avec des outils cloud-native.

FAQ

À quoi sert NVIDIA NIM Operator 3.0.0 ?

Il élargit les capacités de déploiement des microservices NIM et NeMo sur Kubernetes, y compris les NIM par domaine et les configurations multi-LLM/multi-nœud, avec intégration KServe et DRA en démonstration technologique.
uelles considérations réseau pour les déploiements multi-nœuds ?

Les déploiements multi-nœuds sans GPUDirect RDMA peuvent entraîner des timeouts de chargement des shards ; des réseaux rapides (IPoIB ou ROCE) sont recommandés et configurables via le NVIDIA Network Operator.
uel rôle joue Red Hat dans cette version ?

Red Hat a contribué à permettre le déploiement NIM sur KServe, facilitant la gestion du cycle de vie, le cache de modèles et NeMo Guardrails sur les endpoints d’inférence KServe.
Comment fonctionne l’intégration avec KServe ?

L’opérateur configure le CRD InferenceService pour gérer le déploiement, les upgrades et l’autoscaling, avec deux modes : RawDeployment et Serverless.
Où commencer ?

Via NVIDIA NGC ou le dépôt open source NVIDIA/k8s-nim-operator sur GitHub, comme indiqué dans les notes de version.