Nemotron Nano 2 9B: Modelo de razonamiento abierto con 6x de rendimiento para Edge y Empresa

Visión general

NVIDIA Nemotron Nano 2 9B es un modelo abierto dentro de la familia Nemotron, diseñado para razonamiento a nivel empresarial y IA orientada a agentes. Combina un backbone híbrido Transformer–Mamba con un presupuesto de pensamiento configurable para equilibrar precisión, rendimiento y costo, haciéndolo adecuado para implementaciones en edge y PC, manteniendo una fuerte capacidad de razonamiento. El modelo se publica con pesos abiertos, conjuntos de datos abiertos y técnicas de entrenamiento para apoyar a la comunidad de código abierto, enfocándose en razonamiento en matemáticas, codificación, ciencias, uso de herramientas y tareas de instrucción general. Nano 2 está diseñado para caber dentro de los límites de memoria de GPUs de borde comunes y ofrecer baja latencia de pensamiento para flujos de trabajo basados en agentes.

Características clave

Backbone híbrido Transformer–Mamba diseñado para trazas largas de razonamiento
La mayoría de las capas son módulos de estado selectivo Mamba‑2 con tiempo lineal y memoria constante por token
Islas de atención intercaladas conservan la fortaleza del Transformer para vincular hechos distantes
Ventana de contexto de 128k para razonamiento de contexto largo
6x de rendimiento superior frente al siguiente modelo abierto
Presupuesto de pensamiento configurable para controlar cuánta razonamiento interno realiza el modelo
Proceso post‑entrenamiento que incluye fine‑tuning supervisado en datos de razonamiento activado/desactivado, aprendizaje por refuerzo y optimización por preferencias
Compresión y destilación desde una base de 12B a 9B Nano 2 a través de poda y distilación por logits
Pesos abiertos, conjuntos de datos abiertos y técnicas de entrenamiento a través de la iniciativa de ciencia abierta de NVIDIA
Modos de razonamiento: razonamiento activado con tokens de cadena de pensamiento y razonamiento desactivado para respuestas directas
El presupuesto de pensamiento puede reducir la generación de tokens y potencialmente disminuir los costos de inferencia hasta en un 60%
El modelo está diseñado para ajustarse a los límites de memoria de la A10G y funcionar con contextos de 128k

Casos de uso comunes

Implementaciones en edge y PC con baja latencia
Flujo de trabajo de razonamiento en la empresa y IA orientada a agentes
Resolución de problemas multi‑etapas en matemáticas, codificación, ciencias, uso de herramientas y seguridad
Llamadas a herramientas y búsquedas RAG donde la memoria y el rendimiento son críticos
Tareas de razonamiento con contexto largo que requieren pensamiento sostenido sin aumentar la memoria
Escenarios que requieren ajuste entre precisión y costo mediante el presupuesto de pensamiento

Configuración e instalación

La fuente describe cómo montar un servidor vLLM para Nemotron Nano 2 y experimentar con un presupuesto de pensamiento. Se indica que el modelo estará disponible para descargar e implementar a través de NVIDIA NIM en el futuro, y que NVIDIA ofrece pesos abiertos, conjuntos de datos abiertos y técnicas de entrenamiento para apoyar a la comunidad de código abierto. No se incluyen comandos de instalación exactos en el material proporcionado; consulte el informe técnico para los pasos detallados.

# No proporcionado en el extracto de origen
# Consulte el informe técnico oficial para pasos detallados de configuración

Inicio rápido

Un ejemplo mínimo ejecutable no se proporciona en la fuente; el artículo discute la configuración de un servidor vLLM y un ejemplo de presupuesto de pensamiento. Consulte el informe técnico para pasos y ejemplos concretos.

Pros y contras

Pros

Precisión líder en su clase para tareas de razonamiento dentro de su rango de parámetros
Alto rendimiento que habilita etapas de IA con baja latencia
Pesos y datos abiertos para facilitar la experimentación de la comunidad
Fijo presupuesto de pensamiento para ajustar entre precisión y costo Contras
Requiere una gestión cuidadosa de memoria y soporte de hardware (límites de memoria A10G)
Pipeline de compresión y destilación complejo (configuración profesor‑alumno)
Ajustar el presupuesto de pensamiento para diferentes dominios puede requerir experimentación

Alternativas (comparaciones breves)

El modelo 12B base Nemotron se usa como profesor para la destilación para obtener el Nano 2 de 9B; el 12B consume alrededor de 22,9 GiB de memoria para pesos (bfloat16)
Nano 2 9B está diseñado para caber dentro del límite de memoria de la A10G con un presupuesto objetivo de alrededor de 19,66 GiB y un margen de seguridad del 5%
Otros modelos abiertos de la familia Nemotron buscan equilibrar precisión y rendimiento; Nano 2 afirma tener una ventaja de rendimiento de 6x frente al siguiente modelo abierto | Modelo | Parámetros | Contexto | Nota de rendimiento | Memoria / presupuesto | Notas |---|---:|---:|---:|---:|---| | Nemotron Nano 2 9B | 9B | 128k | 6x rendimiento mayor que el siguiente modelo abierto | Presupuesto de 19,66 GiB; margen 5% ; 1,3 GiB para codificador de visión | Pesos abiertos, conjuntos de datos abiertos y técnicas de entrenamiento; distilación y post‑entrenamiento usados |Nemotron 12B base (profesor) | 12B | 128k | — | 22,9 GiB para pesos (bfloat16) | Usado como profesor para la distilación hacia Nano 2; mayor huella de memoria |

Precio o Licencia

La publicación enfatiza pesos abiertos, conjuntos de datos abiertos y técnicas de entrenamiento como parte de la ciencia abierta de NVIDIA. No se proporcionan detalles de precio.