Nemotron Nano 2: modèle ouvert de raisonnement en tête du classement, débit 6x supérieur
Sources: https://huggingface.co/blog/nvidia/supercharge-ai-reasoning-with-nemotron-nano-2, https://huggingface.co/blog/nvidia/supercharge-ai-reasoning-with-nemotron-nano-2?nvid=nv-int-tblg-513492+, huggingface.co
TL;DR
- Nemotron Nano 2 9B est le nouveau modèle de raisonnement ouvert de NVIDIA, offrant une précision de premier plan dans sa catégorie et jusqu’à 6x le débit du prochain modèle ouvert.
- Il utilise une architecture hybride Transformer–Mamba et un budget de réflexion configurable pour équilibrer précision, débit et coût dans les déploiements edge et PC.
- Le modèle est ouvert avec des poids et des jeux de données, prend en charge l’ajustement post-formation et la distillation, et peut s’exécuter avec des clients et serveurs vLLM; il peut réduire les coûts d’inférence jusqu’à 60% dans certains scénarios.
- Les considérations de mémoire et de contexte s’alignent sur le matériel NVIDIA A10G : mémoire de base de 12B à 22,9 Go, Nano 9B compacté pour tenir dans un budget de 19,66 Go avec des marges, et un contexte de 128k ouvre la voie à de longs raisonnements.
- Les entreprises peuvent expérimenter des modes de raisonnement ON/OFF et affiner l’utilisation des outils pour optimiser les tâches en mathématiques, codage et sciences.
Contexte et arrière-plan
Les agents IA gagnent en popularité des bords (edge) au nuage, avec un raisonnement sophistiqué et une planification itérative pour résoudre des problèmes complexes de manière autonome. Pour obtenir les meilleures performances sur le bord, les modèles qui pilotent ces agents doivent être non seulement précis mais aussi efficaces. Le Nemotron Nano 2 9B apporte ces capacités aux environnements edge grâce à une architecture hybride Transformer–Mamba et à un budget de réflexion configurable, permettant aux développeurs d’ajuster la précision, le débit et le coût selon les besoins réels. Essayez ce modèle dès maintenant sur build.nvidia.com. Nemotron Nano 2 est le dernier modèle « Nano » de la famille Nemotron de NVIDIA, conçu pour un raisonnement et une IA agentielle de niveau entreprise. Il introduit un budget de réflexion configurable (contrôle de la quantité de raisonnement interne que le modèle effectue) et un backbone hybride Transformer–Mamba pour augmenter le débit tout en préservant la précision, rendant le modèle adapté aux empreintes PC/edge et au contrôle des coûts. NVIDIA publie la famille Nemotron pour soutenir la communauté open-source avec des poids ouverts, des jeux de données et des techniques d’entraînement. Nous encourageons les développeurs à utiliser des parties ou l’intégralité de Nemotron pour améliorer leurs propres modèles selon leurs cas d’usage. Comme les autres modèles de la série, le Nano 2 domine en précision dans sa catégorie pour des tâches de raisonnement (mathématiques, code, sciences, etc.), tout en restant efficace pour les flux de travail orientés agent grâce à une bonne gestion des instructions et des appels d’outils. En plus, le Nano 2 affiche une performance inégalée grâce à l’architecture hybride Transformer–Mamba, qui produit des jetons de réflexion à un rythme adapté aux environnements à faible latence. Comme le montre la Figure 2, le Nano 2 atteint un débit 6x supérieur au prochain modèle ouvert équivalent. De plus, avec un budget de réflexion défini par l’utilisateur, les développeurs peuvent adapter la quantité de « réflexion » pour potentiellement économiser des jetons tout en conservant une précision élevée dans de nombreux domaines. Cette stratégie de coupe sélective peut réduire la génération de jetons inutiles et diminuer les coûts d’inférence jusqu’à 60% sans impacter significativement la précision.
Nouveautés
- Introduction de Nemotron Nano 2 9B, un modèle de raisonnement ouvert et compact, avec une précision leader dans sa tranche et un débit 6x supérieur au prochain modèle ouvert.
- Backbone hybride Transformer–Mamba, avec la majorité des couches composées de modules Mamba‑2 sélectifs, fonctionnant en temps linéaire et mémoire constante par jeton. Un petit ensemble d’îlots d’attention préserve la capacité du Transformer à lier des faits distants ou des instructions.
- Budget de réflexion configurable permettant aux développeurs de limiter le raisonnement interne via un marqueur . Cela permet des compromis directs entre précision et latence.
- Longueur de contexte de 128k tokens pour des traces de raisonnement prolongées, facilitant le raisonnement sur des tâches complexes.
- Flux post-formation et distillation : réglage supervisé sur un mélange équilibré de données avec et sans raisonnement, suivi d’apprentissage par renforcement et d’optimisation par préférence pour améliorer l’outil et la compréhension du contexte long.
- Compression du modèle à partir d’un professeur de 12B vers un élève de 9B via pruning et NAS (recherche d’architecture neuronale) pour trouver la meilleure architecture dans un budget mémoire, aboutissant à 56 couches.
- Considérations mémoire et déploiement : le 12B nécessite 22,9 Go de mémoire pour les poids; Nano 2 9B est conçu pour tenir dans un budget de 19,66 Go, avec 1,3 Go pour un encodeur de vision et un contexte 128k.
- Artefacts ouverts et jeux de données : NVIDIA s’engage à ouvrir les poids, les jeux de données et les techniques d’entraînement; accès via build.nvidia.com et déploiement NIM à venir.
- Deux modes de raisonnement : Reasoning ON (sort une chaîne de raisonnement) et Reasoning OFF (répond directement). ON est le mode par défaut.
- Démonstration d’intégration : serveur vLLM pour héberger Nemotron Nano 2 et démonstrations d’intégration du budget de pensée dans le client.
Points techniques (aperçu rapide)
| Élément | Valeur / Description |
|---|---|
| Modèle de base | 12B avec backbone Mamba‑Transformer (professeur NVIDIA‑Nemotron‑Nano‑12B‑v2‑Base) |
| Taille Nano 2 | 9B paramètres, pruned et distillé pour l edge |
| Profondeur | 56 couches (au lieu de 62) |
| Contexte | 128k tokens |
| Budget mémoire | 19,66 Go, marge de 5% et 1,3 Go pour encodeur de vision |
| Référence matériel | Considérations A10G et mémoire disponible ( |
| Throughput | 6x supérieur au prochain modèle ouvert équivalent |
| Budget de thinking | Configurable par l’utilisateur; peut réduire la génération de jetons jusqu’à ~60% |
| Modes de raisonnement | ON et OFF, ON par défaut |
| Contexte long | Support via vLLM |
| Artefacts ouverts | Poids ouverts, jeux de données et techniques d’entraînement disponibles |
| Accès | via build.nvidia.com; NIM bientôt |
Pourquoi cela compte (impact pour les développeurs/entreprises)
Pour les développeurs qui conçoivent des agents IA actifs sur des dispositifs edge et dans le cloud, Nemotron Nano 2 9B offre une combinaison rare de précision et d’efficacité, susceptible de transformer les déploiements des tâches de raisonnement en production. Le débit élevé permet des cycles de décision plus rapides dans des flux de travail orientés agent, notamment en mathématiques, codage, sciences, utilisation d’outils et programmation. Le budget de réflexion configurable donne une brique tangible pour équilibrer latence et coût en temps réel, avec la perspective d’économies d’inférence allant jusqu’à 60% dans de nombreux cas, sans compromettre la précision. L’approche ouverte, associée à des techniques de post-formation et de distillation, offre aux entreprises une voie pour adapter le modèle à leurs données et tâches spécifiques tout en assurant l’alignement et la sécurité. Le Nano 2 est particulièrement pertinent pour des scénarios edge ou PC-sized où la latence est critique et où le contexte étendu peut améliorer les performances de raisonnement. L’ouverture des artefacts et des ensembles de données soutient la communauté open-source et facilite l’expérimentation et l’ajustement du modèle pour des cas d’usage réels.
Détails techniques ou Mise en œuvre
Le Nano 2 9B réunit un backbone hybride Transformer–Mamba pour des charges de travail de raisonnement lourd et sortie prolongée. La majorité des couches intègrent des modules Mamba‑2 sélectifs, fonctionnant en temps linéaire et en mémoire constante par jeton. Quelques îlots d’attention s’intercalent pour préserver les forces du Transformer lors des liaisons globales entre des faits ou des instructions éloignés. En pratique, cet arrangement hybride maintient la précision Transformer tout en tirant parti du débit élevé permis par Mamba. Le post‑formation comprend un fine-tuning supervisé sur un mélange équilibré de données avec et sans raisonnement, couvrant mathématiques, sciences, programmation, utilisation d’outils, conversation générale et sécurité. Cette étape est suivie de renforcement par apprentissage et d’optimisation basée sur les préférences pour améliorer l’alignement et la robustesse à travers les tâches. La compression du modèle suit le cadre enseignant‑élève. Le Nano 2 9B est dérivé d’un modèle 12B qui sert de enseignant pour la poda et la distillation. La NAS est étendue pour trouver la meilleure architecture dans un budget mémoire fixé, réduisant la profondeur de 62 à 56 couches et ajustant la largeur (canaux d’embedding, dimension FFN et têtes Mamba). Pour récupérer les performances perdues lors de la poda, une distillation des logits est utilisée avec une perte KL pour transférer les connaissances du modèle 12B vers le 9B. L’implémentation du budget de réflexion insère un balise pour arrêter le raisonnement et permettre un contrôle précis côté client. Le budget de réflexion offre un contrôle clair sur le raisonnement interne et peut être adapté par l’application pour répondre à des objectifs de latence, notamment dans le support client, les étapes d’un agent autonome et les déploiements edge. Deux modes de raisonnement (ON et OFF) permettent d’adapter le comportement selon les besoins, avec ON par défaut pour obtenir une chaîne de raisonnement si nécessaire. Enfin, NVIDIA illustre une configuration serveur vLLM pour héberger le Nemotron Nano 2 et montre comment le budget de réflexion peut être appliqué côté client lors de l’utilisation avec vLLM. Cette approche s’inscrit dans une démarche d’ouverture des artefacts et des techniques pour la communauté open-source et indique qu’un déploiement via NVIDIA NIM sera disponible prochainement.
Points clés et implémentation (résumé)
- Contexte étendu et mémoire: 128k tokens et budget mémoire de 19,66 Go, avec des marges et 1,3 Go dédiés à un encodeur de vision.
- Architecture hybride: majorité des couches Mamba‑2, avec îlots d’attention pour maintenir les capacités globales du Transformer.
- Déploiement edge et PC: conçu pour des empreintes limitées et des flux de travail nécessitant des réponses rapides.
- Open artifacts et données: poids, jeux de données et techniques d’entraînement publiés; accès prévu via NIM.
- Modes ON/OFF et budget: choix entre raisonnement interne et réponse directe; ON est activé par défaut.
Points à retenir
- Nano 2 9B offre une précision leader dans sa plage tout en affichant un débit nettement supérieur à celui des modèles ouverts comparables.
- L’architecture hybride permet des traînées de raisonnement longues et performantes tout en maîtrisant l’utilisation mémoire par jeton.
- Le budget de réflexion configurable peut réduire les coûts d’inférence tout en maintenant une précision élevée dans de nombreuses applications.
- Deux modes de raisonnement et l’option d’intégration vLLM facilitent les déploiements pratiques et les tests en production.
- NVIDIA met l’accent sur l’ouverture d’artefacts et de données, avec une disponibilité future via NIM et des ressources publiques pour les développeurs.
FAQ
-
Qu’est-ce que Nemotron Nano 2 9B ?
C’est un modèle ouvert de raisonnement à 9 milliards de paramètres, conçu pour l’IA orientée agence et les flux de travail d’entreprise, avec un backbone hybride Transformer–Mamba et un budget de réflexion configurable.
-
u’est-ce que le budget de réflexion et comment affecte-t-il les performances et le coût ?
Le budget de réflexion limite le raisonnement interne en insérant une balise . Cela peut réduire la génération de jetons et les coûts d’inférence (jusqu’à environ 60%), tout en conservant une précision élevée dans de nombreux domaines; les modes Reasoning ON et Reasoning OFF permettent d’adapter le comportement.
-
uelles sont les considérations matérielles et mémoire ?
Le modèle 12B nécessite environ 22,9 Go de mémoire pour les poids; Nano 2 9B est conçu pour tenir dans un budget de 19,66 Go, avec 1,3 Go alloués à l’encodeur de vision et un contexte de 128k. L’implémentation cible les contraintes A10G.
-
Le Nemotron Nano 2 9B est-il open-source ?
Oui. NVIDIA ouvre les poids, les jeux de données et les techniques d’entraînement dans la famille Nemotron. L’accès se fait via build.nvidia.com, et NIM sera disponible prochainement.
Références
More news
NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé
Le HGX B200 de NVIDIA abaisse l’intensité des émissions de carbone incorporé de 24% par rapport au HGX H100, tout en offrant de meilleures performances IA et une efficacité énergétique accrue. Cet article résume les données PCF et les nouveautés matérielles.
Scaleway rejoint les Fournisseurs d’Inference de Hugging Face pour une Inférence Serverless et Faible Latence
Scaleway est désormais un Fournisseur d’Inference pris en charge sur Hugging Face Hub, permettant l’inférence serverless directement sur les pages de modèles avec les SDK JS et Python. Accédez à des modèles open-weight populaires et bénéficiez d’une latence réduite.
Modèles Falcon-H1 de TII disponibles sur Amazon Bedrock Marketplace et SageMaker JumpStart
AWS annonce les modèles Falcon-H1 à instruction de TII (0,5B–34B) sur Amazon Bedrock Marketplace et SageMaker JumpStart, avec support multilingue, architecture hybride et guide de déploiement.
Briser le mur du réseau dans l’infrastructure IA
Microsoft Research présente MOSAIC, un interconnect optique basé sur des microLEDs destiné à surmonter les limites de mémoire et réseau des centres de données, avec le potentiel de transformer les architectures de clusters IA.
Rendez vos ZeroGPU Spaces plus rapides avec la compilation AoT de PyTorch
Découvrez comment la compilation AoT de PyTorch améliore les performances des ZeroGPU Spaces, permettant la réutilisation instantanée des modèles compilés, la quantification FP8 et les formes dynamiques pour des démos plus réactives sur les GPUs H200.
Rendez vos ZeroGPU Spaces plus rapides avec la compilation AoT de PyTorch
Découvrez comment la compilation ahead-of-time (AoT) de PyTorch accélère les ZeroGPU Spaces sur les GPUs Nvidia H200, avec rechargement instantané, quantification FP8, formes dynamiques et gains de performance (1,3×–1,8×) pour Flux, Wan et LTX.