Nemotron Nano 2 9B : modèle d reasoning ouvert avec 6x de débit pour l’Edge et l’Entreprise

Aperçu

NVIDIA Nemotron Nano 2 9B est un modèle ouvert dans la famille Nemotron, conçu pour le raisonnement en entreprise et l’IA agentique. Il combine un backbone hybride Transformer–Mamba avec un budget de pensée configurable afin d’équilibrer précision, débit et coût, le rendant adapté pour les déploiements edge et PC tout en maintenant une forte capacité de raisonnement. Le modèle est publié avec des poids ouverts, des jeux de données ouverts et des techniques de formation pour soutenir la communauté open source, visant le raisonnement en mathématiques, codage, sciences, utilisation d’outils et instructions générales. Nano 2 est conçu pour tenir dans les limites mémoire des GPUs edge courants et pour offrir une faible latence de réflexion pour les workflows agentifs.

Caractéristiques clés

Backbone hybride Transformer–Mamba conçu pour les traces de raisonnement longues
La majorité des couches sont des modules d’état sélectif Mamba‑2 avec temps linéaire et mémoire constante par token
Îles d’attention intercalées préservent la force du Transformer pour relier des faits distants
Fenêtre de contexte de 128k pour le raisonnement à long contexte
6x de débit supérieur par rapport au prochain modèle ouvert
Budget de pensée configurable pour contrôler l’étendue du raisonnement interne
Processus post‑formation incluant fine‑tuning supervisé sur données de raisonnement activé/désactivé, apprentissage par renforcement et optimisation par préférence
Compression et distillation d’un modèle de base 12B vers 9B Nano 2 via pruning et distillation par logits
Poids ouverts, jeux de données ouverts et techniques de formation via l’initiative science ouverte NVIDIA
Modes de raisonnement : raisonnement activé avec tokens de chaîne de pensée et raisonnement désactivé pour des réponses directes
Le budget de pensée peut réduire la génération de tokens et potentiellement diminuer les coûts d’inférence jusqu’à 60%
Le modèle est conçu pour s’adapter aux limites de mémoire de la A10G et fonctionner avec 128k de contexte

Cas d’utilisation courants

Déploiements edge et PC axés sur une faible latence
Raisonnement et flux de travail IA agentique en entreprise
Résolution multi‑étapes en mathématiques, codage, sciences, utilisation d’outils et sécurité
Appels d’outils et recherches RAG où mémoire et débit sont critiques
Tâches de raisonnement à long contexte nécessitant une réflexion soutenue sans augmentation de mémoire
Scénarios demandant un ajustement précis entre précision et coût via le budget de pensée

Setup & installation

La source décrit la mise en place d’un serveur vLLM pour le Nemotron Nano 2 et l’expérimentation d’un budget de pensée. Il est mentionné que le modèle sera disponible au téléchargement et déployable via NVIDIA NIM à l’avenir, et que NVIDIA fournit des poids ouverts, des jeux de données ouverts et des techniques de formation pour soutenir la communauté open source. Les commandes d’installation exactes ne sont pas incluses dans le matériel fourni ; reportez‑vous au rapport technique pour les étapes détaillées.

# Non fourni dans l’extrait source
# Consultez le rapport technique officiel pour les étapes détaillées de configuration

Démarrage rapide

Un exemple minimal et exécutable n’est pas fourni dans la source ; l’article discute de la configuration d’un serveur vLLM et d’un exemple de budget de pensée. Voir le rapport technique pour les étapes et exemples concrets.

Avantages et inconvénients

Avantages

Précision leader dans sa tranche de taille pour les tâches de raisonnement
Débit élevé permettant des étapes d’IA à faible latence
Poids et jeux de données ouverts facilitant l’expérimentation communautaire
Budget de pensée flexible pour ajuster entre précision et coût Inconvénients
Nécessite une gestion attentive de la mémoire et du matériel compatible (limites mémoire A10G)
Pipeline de compression et de distillation complexe (architecture professeur‑étudiant)
L’ajustement du budget de pensée pour différents domaines peut nécessiter des essais

Alternatives (comparaisons succinctes)

Le modèle 12B base Nemotron est utilisé comme professeur pour la distillation afin d’obtenir le Nano 2 9B ; le 12B consomme environ 22,9 GiB de mémoire pour les poids (bfloat16)
Nano 2 9B est conçu pour tenir dans la limite mémoire de la A10G avec un budget cible d’environ 19,66 GiB et un tampon de 5%
D’autres modèles ouverts de la famille Nemotron visent à équilibrer précision et débit; Nano 2 revendique un débit 6x supérieur par rapport au prochain modèle ouvert | Modèle | Paramètres | Contexte | Observations sur le débit | Mémoire / budget | Notes |---|---:|---:|---:|---:|---| | Nemotron Nano 2 9B | 9B | 128k | Débit 6x supérieur au prochain modèle ouvert | Budget 19,66 GiB ; tampon 5 % ; 1,3 GiB pour encodeur de vision | Poids ouverts, jeux de données ouverts et techniques de formation ; distillation et post‑formation utilisés |Nemotron 12B base (professeur) | 12B | 128k | — | 22,9 GiB pour les poids (bfloat16) | Utilisé comme professeur pour distillation vers Nano 2 ; empreinte mémoire plus élevée |

Prix ou licence

Le post met l’accent sur les poids ouverts, les jeux de données ouverts et les techniques de formation dans le cadre de la science ouverte NVIDIA. Aucun détail de prix n’est fourni.