Skip to content
 Nemotron Nano 2 9B: Modelo de razonamiento abierto con 6x de rendimiento para Edge y Empresa
Source: huggingface.co

Nemotron Nano 2 9B: Modelo de razonamiento abierto con 6x de rendimiento para Edge y Empresa

Sources: https://huggingface.co/blog/nvidia/supercharge-ai-reasoning-with-nemotron-nano-2, https://huggingface.co/blog/nvidia/supercharge-ai-reasoning-with-nemotron-nano-2?nvid=nv-int-tblg-513492%20, NVIDIA Dev Blog

Visión general

NVIDIA Nemotron Nano 2 9B es un modelo abierto dentro de la familia Nemotron, diseñado para razonamiento a nivel empresarial y IA orientada a agentes. Combina un backbone híbrido Transformer–Mamba con un presupuesto de pensamiento configurable para equilibrar precisión, rendimiento y costo, haciéndolo adecuado para implementaciones en edge y PC, manteniendo una fuerte capacidad de razonamiento. El modelo se publica con pesos abiertos, conjuntos de datos abiertos y técnicas de entrenamiento para apoyar a la comunidad de código abierto, enfocándose en razonamiento en matemáticas, codificación, ciencias, uso de herramientas y tareas de instrucción general. Nano 2 está diseñado para caber dentro de los límites de memoria de GPUs de borde comunes y ofrecer baja latencia de pensamiento para flujos de trabajo basados en agentes.

Características clave

  • Backbone híbrido Transformer–Mamba diseñado para trazas largas de razonamiento
  • La mayoría de las capas son módulos de estado selectivo Mamba‑2 con tiempo lineal y memoria constante por token
  • Islas de atención intercaladas conservan la fortaleza del Transformer para vincular hechos distantes
  • Ventana de contexto de 128k para razonamiento de contexto largo
  • 6x de rendimiento superior frente al siguiente modelo abierto
  • Presupuesto de pensamiento configurable para controlar cuánta razonamiento interno realiza el modelo
  • Proceso post‑entrenamiento que incluye fine‑tuning supervisado en datos de razonamiento activado/desactivado, aprendizaje por refuerzo y optimización por preferencias
  • Compresión y destilación desde una base de 12B a 9B Nano 2 a través de poda y distilación por logits
  • Pesos abiertos, conjuntos de datos abiertos y técnicas de entrenamiento a través de la iniciativa de ciencia abierta de NVIDIA
  • Modos de razonamiento: razonamiento activado con tokens de cadena de pensamiento y razonamiento desactivado para respuestas directas
  • El presupuesto de pensamiento puede reducir la generación de tokens y potencialmente disminuir los costos de inferencia hasta en un 60%
  • El modelo está diseñado para ajustarse a los límites de memoria de la A10G y funcionar con contextos de 128k

Casos de uso comunes

  • Implementaciones en edge y PC con baja latencia
  • Flujo de trabajo de razonamiento en la empresa y IA orientada a agentes
  • Resolución de problemas multi‑etapas en matemáticas, codificación, ciencias, uso de herramientas y seguridad
  • Llamadas a herramientas y búsquedas RAG donde la memoria y el rendimiento son críticos
  • Tareas de razonamiento con contexto largo que requieren pensamiento sostenido sin aumentar la memoria
  • Escenarios que requieren ajuste entre precisión y costo mediante el presupuesto de pensamiento

Configuración e instalación

La fuente describe cómo montar un servidor vLLM para Nemotron Nano 2 y experimentar con un presupuesto de pensamiento. Se indica que el modelo estará disponible para descargar e implementar a través de NVIDIA NIM en el futuro, y que NVIDIA ofrece pesos abiertos, conjuntos de datos abiertos y técnicas de entrenamiento para apoyar a la comunidad de código abierto. No se incluyen comandos de instalación exactos en el material proporcionado; consulte el informe técnico para los pasos detallados.

# No proporcionado en el extracto de origen
# Consulte el informe técnico oficial para pasos detallados de configuración

Inicio rápido

Un ejemplo mínimo ejecutable no se proporciona en la fuente; el artículo discute la configuración de un servidor vLLM y un ejemplo de presupuesto de pensamiento. Consulte el informe técnico para pasos y ejemplos concretos.

Pros y contras

Pros

  • Precisión líder en su clase para tareas de razonamiento dentro de su rango de parámetros
  • Alto rendimiento que habilita etapas de IA con baja latencia
  • Pesos y datos abiertos para facilitar la experimentación de la comunidad
  • Fijo presupuesto de pensamiento para ajustar entre precisión y costo Contras
  • Requiere una gestión cuidadosa de memoria y soporte de hardware (límites de memoria A10G)
  • Pipeline de compresión y destilación complejo (configuración profesor‑alumno)
  • Ajustar el presupuesto de pensamiento para diferentes dominios puede requerir experimentación

Alternativas (comparaciones breves)

  • El modelo 12B base Nemotron se usa como profesor para la destilación para obtener el Nano 2 de 9B; el 12B consume alrededor de 22,9 GiB de memoria para pesos (bfloat16)
  • Nano 2 9B está diseñado para caber dentro del límite de memoria de la A10G con un presupuesto objetivo de alrededor de 19,66 GiB y un margen de seguridad del 5%
  • Otros modelos abiertos de la familia Nemotron buscan equilibrar precisión y rendimiento; Nano 2 afirma tener una ventaja de rendimiento de 6x frente al siguiente modelo abierto | Modelo | Parámetros | Contexto | Nota de rendimiento | Memoria / presupuesto | Notas |---|---:|---:|---:|---:|---| | Nemotron Nano 2 9B | 9B | 128k | 6x rendimiento mayor que el siguiente modelo abierto | Presupuesto de 19,66 GiB; margen 5% ; 1,3 GiB para codificador de visión | Pesos abiertos, conjuntos de datos abiertos y técnicas de entrenamiento; distilación y post‑entrenamiento usados |Nemotron 12B base (profesor) | 12B | 128k | — | 22,9 GiB para pesos (bfloat16) | Usado como profesor para la distilación hacia Nano 2; mayor huella de memoria |

Precio o Licencia

La publicación enfatiza pesos abiertos, conjuntos de datos abiertos y técnicas de entrenamiento como parte de la ciencia abierta de NVIDIA. No se proporcionan detalles de precio.

Referencias

More resources