Nemotron Nano 2 9B : modèle d reasoning ouvert avec 6x de débit pour l’Edge et l’Entreprise
Sources: https://huggingface.co/blog/nvidia/supercharge-ai-reasoning-with-nemotron-nano-2, https://huggingface.co/blog/nvidia/supercharge-ai-reasoning-with-nemotron-nano-2?nvid=nv-int-tblg-513492%20, NVIDIA Dev Blog
Aperçu
NVIDIA Nemotron Nano 2 9B est un modèle ouvert dans la famille Nemotron, conçu pour le raisonnement en entreprise et l’IA agentique. Il combine un backbone hybride Transformer–Mamba avec un budget de pensée configurable afin d’équilibrer précision, débit et coût, le rendant adapté pour les déploiements edge et PC tout en maintenant une forte capacité de raisonnement. Le modèle est publié avec des poids ouverts, des jeux de données ouverts et des techniques de formation pour soutenir la communauté open source, visant le raisonnement en mathématiques, codage, sciences, utilisation d’outils et instructions générales. Nano 2 est conçu pour tenir dans les limites mémoire des GPUs edge courants et pour offrir une faible latence de réflexion pour les workflows agentifs.
Caractéristiques clés
- Backbone hybride Transformer–Mamba conçu pour les traces de raisonnement longues
- La majorité des couches sont des modules d’état sélectif Mamba‑2 avec temps linéaire et mémoire constante par token
- Îles d’attention intercalées préservent la force du Transformer pour relier des faits distants
- Fenêtre de contexte de 128k pour le raisonnement à long contexte
- 6x de débit supérieur par rapport au prochain modèle ouvert
- Budget de pensée configurable pour contrôler l’étendue du raisonnement interne
- Processus post‑formation incluant fine‑tuning supervisé sur données de raisonnement activé/désactivé, apprentissage par renforcement et optimisation par préférence
- Compression et distillation d’un modèle de base 12B vers 9B Nano 2 via pruning et distillation par logits
- Poids ouverts, jeux de données ouverts et techniques de formation via l’initiative science ouverte NVIDIA
- Modes de raisonnement : raisonnement activé avec tokens de chaîne de pensée et raisonnement désactivé pour des réponses directes
- Le budget de pensée peut réduire la génération de tokens et potentiellement diminuer les coûts d’inférence jusqu’à 60%
- Le modèle est conçu pour s’adapter aux limites de mémoire de la A10G et fonctionner avec 128k de contexte
Cas d’utilisation courants
- Déploiements edge et PC axés sur une faible latence
- Raisonnement et flux de travail IA agentique en entreprise
- Résolution multi‑étapes en mathématiques, codage, sciences, utilisation d’outils et sécurité
- Appels d’outils et recherches RAG où mémoire et débit sont critiques
- Tâches de raisonnement à long contexte nécessitant une réflexion soutenue sans augmentation de mémoire
- Scénarios demandant un ajustement précis entre précision et coût via le budget de pensée
Setup & installation
La source décrit la mise en place d’un serveur vLLM pour le Nemotron Nano 2 et l’expérimentation d’un budget de pensée. Il est mentionné que le modèle sera disponible au téléchargement et déployable via NVIDIA NIM à l’avenir, et que NVIDIA fournit des poids ouverts, des jeux de données ouverts et des techniques de formation pour soutenir la communauté open source. Les commandes d’installation exactes ne sont pas incluses dans le matériel fourni ; reportez‑vous au rapport technique pour les étapes détaillées.
# Non fourni dans l’extrait source
# Consultez le rapport technique officiel pour les étapes détaillées de configuration
Démarrage rapide
Un exemple minimal et exécutable n’est pas fourni dans la source ; l’article discute de la configuration d’un serveur vLLM et d’un exemple de budget de pensée. Voir le rapport technique pour les étapes et exemples concrets.
Avantages et inconvénients
Avantages
- Précision leader dans sa tranche de taille pour les tâches de raisonnement
- Débit élevé permettant des étapes d’IA à faible latence
- Poids et jeux de données ouverts facilitant l’expérimentation communautaire
- Budget de pensée flexible pour ajuster entre précision et coût Inconvénients
- Nécessite une gestion attentive de la mémoire et du matériel compatible (limites mémoire A10G)
- Pipeline de compression et de distillation complexe (architecture professeur‑étudiant)
- L’ajustement du budget de pensée pour différents domaines peut nécessiter des essais
Alternatives (comparaisons succinctes)
- Le modèle 12B base Nemotron est utilisé comme professeur pour la distillation afin d’obtenir le Nano 2 9B ; le 12B consomme environ 22,9 GiB de mémoire pour les poids (bfloat16)
- Nano 2 9B est conçu pour tenir dans la limite mémoire de la A10G avec un budget cible d’environ 19,66 GiB et un tampon de 5%
- D’autres modèles ouverts de la famille Nemotron visent à équilibrer précision et débit; Nano 2 revendique un débit 6x supérieur par rapport au prochain modèle ouvert | Modèle | Paramètres | Contexte | Observations sur le débit | Mémoire / budget | Notes |---|---:|---:|---:|---:|---| | Nemotron Nano 2 9B | 9B | 128k | Débit 6x supérieur au prochain modèle ouvert | Budget 19,66 GiB ; tampon 5 % ; 1,3 GiB pour encodeur de vision | Poids ouverts, jeux de données ouverts et techniques de formation ; distillation et post‑formation utilisés |Nemotron 12B base (professeur) | 12B | 128k | — | 22,9 GiB pour les poids (bfloat16) | Utilisé comme professeur pour distillation vers Nano 2 ; empreinte mémoire plus élevée |
Prix ou licence
Le post met l’accent sur les poids ouverts, les jeux de données ouverts et les techniques de formation dans le cadre de la science ouverte NVIDIA. Aucun détail de prix n’est fourni.
Références
More resources
CUDA Toolkit 13.0 pour Jetson Thor : Écosystème Arm Unifié et Plus
Kit CUDA unifié pour Arm sur Jetson Thor avec cohérence mémoire complète, partage du GPU entre processus, interop OpenRM/dmabuf, support NUMA et outils améliorés pour l’embarqué et le serveur.
Réduire les coûts de déploiement des modèles tout en conservant les performances grâce au swap de mémoire GPU
Exploitez le swap mémoire GPU (hot-swapping de modèles) pour partager les GPUs entre plusieurs LLM, réduire les coûts inoccupés et améliorer l’auto-Scaling tout en respectant les SLA.
Amélioration de l’auto-tuning GEMM avec nvMatmulHeuristics dans CUTLASS 4.2
Présente nvMatmulHeuristics pour sélectionner rapidement un petit ensemble de configurations de kernels GEMM à fort potentiel pour CUTLASS 4.2, réduisant considérablement le temps de tuning tout en approchant les performances d’une Recherche Exhaustive.
Accélérez ZeroGPU Spaces avec la compilation ahead-of-time (AoT) de PyTorch
Découvrez comment la compilation AoT de PyTorch accélère ZeroGPU Spaces en exportant un modèle compilé et en le rechargeant instantanément, avec quantification FP8, formes dynamiques et intégration au flux Spaces GPU.
Fine-Tuning gpt-oss pour la précision et les performances avec l’entraînement par quantisation (QAT)
Guide du fine-tuning de gpt-oss utilisant SFT + QAT pour récupérer la précision FP4 tout en préservant l’efficacité, avec upcast vers BF16, MXFP4, NVFP4 et déploiement avec TensorRT-LLM.
Comment faire évoluer vos agents LangGraph en production d’un seul utilisateur à 1 000 collègues
Guide pour déployer et faire évoluer des agents LangGraph en production avec le NeMo Agent Toolkit, des tests de charge et une mise en œuvre par étapes pour des centaines à des milliers d’utilisateurs.