Nuevo Nemotron Nano 2: modelo de razonamiento abierto líder con 6x de rendimiento

TL;DR

Nemotron Nano 2 9B es un modelo de razonamiento abierto orientado a la precisión empresarial en dispositivos edge.
Ofrece hasta 6x más rendimiento que el siguiente mejor modelo abierto en su rango de tamaño.
Un presupuesto de pensamiento configurable permite a los desarrolladores equilibrar precisión, uso de tokens y costo de inferencia controlando el razonamiento interno.
La arquitectura híbrida Transformer–Mamba favorece la velocidad mediante módulos Mamba‑2 de tiempo lineal y memoria constante por token.
Está diseñado para caber dentro de los límites de memoria del NVIDIA A10G (con contexto de 128k) tras compresión desde un modelo base de 12B, facilitando despliegues en edge.

Contexto y antecedentes

Las entidades de IA están mainstream desde edge hasta la nube, y requieren tanto precisión como eficiencia para soportar razonamiento y planificación autónomos. NVIDIA presenta Nemotron Nano 2 9B como el último modelo abierto de la familia Nemotron, destinado a razonamiento a nivel empresarial y flujos de trabajo con agentes. El modelo introduce un presupuesto de pensamiento configurable para limitar el razonamiento interno y una columna vertebral híbrida Transformer–Mamba para mantener la precisión mientras aumenta el rendimiento gracias a componentes Mamba. NVIDIA enfatiza el uso de pesos abiertos, conjuntos de datos abiertos y técnicas de entrenamiento para apoyar a la comunidad de código abierto.

Novedades

El Nemotron Nano 2 9B integra varias mejoras:

Presupuesto de pensamiento configurable: se puede fijar un límite al razonamiento interno; un ejemplo práctico muestra un cliente con un presupuesto de 32 tokens en una configuración vLLM.
Arquitectura híbrida Transformer–Mamba: la mayor parte de las capas son módulos Mamba‑2 (tiempo lineal, memoria constante por token) con algunas islas de atención para mantener la capacidad de saltos globales.
Proceso de post‑entrenamiento y distilación: tras un fine‑tuning supervisado en datos que combinan razonamiento y no razonamiento en áreas como matemáticas, ciencia, programación, uso de herramientas y seguridad, el modelo se refina con aprendizaje por refuerzo y optimización por preferencias para alinear y robustecer.
Compresión y NAS: Nano 2 9B se obtiene mediante pruning de un modelo base de 12B, que pesa 22.9 GiB en bf16; el modelo final se comprime para ajustarse a la memoria y alcanzar 9B parámetros. Se realiza una búsqueda NAS en dos fases y distilación de logits con el 12B como maestro para recuperar desempeño.
Contexto y memoria: diseñado para trabajar con un contexto de 128k y un presupuesto de memoria de 19.66 GiB para pesos, más buffers (5% para frameworks como vLLM) y 1.3 GiB para un codificador de visión, para encajar en hardware como el A10G.
Eficiencia de inferencia y rendimiento: la arquitectura híbrida ofrece mayor tokens por segundo y menor uso de memoria frente a modelos Transformer puros en configuraciones de razonamiento.
Artefactos abiertos y plan de liberación: NVIDIA subraya el código abierto de pesos, conjuntos de datos y técnicas para apoyar a la comunidad, con planes de distribuir el Nemotron Nano 9B V2 a través de NVIDIA NIM en el futuro.

Por qué importa (impacto para desarrolladores/empresas)

Relevancia para edge y empresa: al combinar precisión con eficiencia, Nano 2 apunta a cargas de razonamiento que requieren exactitud y respuestas rápidas en entornos con recursos limitados.
Eficiencia de costos: el presupuesto de pensamiento puede reducir la generación de tokens y los costos de inferencia en hasta aproximadamente 60% sin perder precisión de forma significativa.
Enfoque abierto: con pesos y datasets abiertos, los desarrolladores pueden adaptar la familia Nemotron a sus casos de uso y mejorar la confiabilidad de llamadas a herramientas y comprensión de contextos largos.
Adaptación a memoria: Nano 2 está diseñado para caber dentro de la memoria del A10G, manteniendo un contexto amplio de 128k para flujos de razonamiento complejos.

Detalles técnicos o implementación

Arquitectura: columna vertebral híbrida Transformer–Mamba para cargas de razonamiento y salidas largas. La mayoría de capas usan módulos Mamba‑2 (tiempo lineal, memoria constante por token) con unas pocas islas de atención que conservan la capacidad de salto global.
Proceso de entrenamiento y alineamiento: fine‑tuning supervisado en datos que mezclan razonamiento y no razonamiento, seguido de RL y optimización por preferencias para alinear y robustecer.
Compresión y NAS: el modelo 12B se poda hasta 9B, con 56 capas frente a 62, y ajustes de ancho en embedding, FFN y cabezas Mamba. La búsqueda NAS en dos fases determina la mejor estructura y luego se realiza distilación de logits del 12B para recuperar desempeño.
Contexto y memoria: soporte para contexto de 128k y presupuesto de memoria de 19.66 GiB para pesos, con 5% para frameworks y 1.3 GiB para codificador de visión.
Budget de pensamiento y cliente: el presupuesto de pensamiento restringe el razonamiento interno, con demostración de cliente utilizando vLLM para imponer límites (ejemplo de 32 tokens).
Artefactos abiertos y publicación: NVIDIA enfatiza la apertura de pesos, datasets y técnicas para la comunidad, con planes de liberar Nano 9B V2 a través de NVIDIA NIM próximamente.

Elemento	Valor o descripción
Tamaño del modelo base antes de compresión	12B (Nemotron Nano 12B)
Memoria del modelo base (bf16)	22.9 GiB
Tamaño final comprimido (Nano 2)	9B parámetros
Presupuesto de memoria para pesos	19.66 GiB
Buffer para frameworks	5%
Memoria del codificador de visión	1.3 GiB
Contexto máximo	128k
Capas tras poda	56 (de 62)
Rendimiento declarado	6x mayor que el siguiente modelo abierto
Efecto del presupuesto de pensamiento	Potencial reducción de costes de inferencia hasta ~60%
Modos de pensamiento	ON (con razonamiento) y OFF (respuesta directa)
Artefactos abiertos	Datasets y técnicas de post‑formación y pre‑formación

Conclusiones clave

Nano 2 9B alcanza precisión líder en su rango con un rendimiento considerable gracias a una arquitectura híbrida Transformer–Mamba.
El presupuesto de pensamiento permite equilibrar la profundidad del razonamiento, la precisión y el coste, con potencial de reducción de tokens e inferencia.
La compresión de 12B a 9B permite despliegue en edge con memoria limitada, manteniendo capacidades de contexto largo.
La arquitectura equilibra razonamiento de largo alcance y eficiencia de memoria por token, buscando reducir la latencia en implementaciones edge sin sacrificar el razonamiento global.
NVIDIA mantiene un enfoque abierto con pesos y conjuntos de datos para facilitar la adaptación de Nemotron a usos específicos.