Nemotron Nano 2 9B: Modelo de razonamiento abierto con 6x de rendimiento para Edge y Empresa
Sources: https://huggingface.co/blog/nvidia/supercharge-ai-reasoning-with-nemotron-nano-2, https://huggingface.co/blog/nvidia/supercharge-ai-reasoning-with-nemotron-nano-2?nvid=nv-int-tblg-513492%20, NVIDIA Dev Blog
Visión general
NVIDIA Nemotron Nano 2 9B es un modelo abierto dentro de la familia Nemotron, diseñado para razonamiento a nivel empresarial y IA orientada a agentes. Combina un backbone híbrido Transformer–Mamba con un presupuesto de pensamiento configurable para equilibrar precisión, rendimiento y costo, haciéndolo adecuado para implementaciones en edge y PC, manteniendo una fuerte capacidad de razonamiento. El modelo se publica con pesos abiertos, conjuntos de datos abiertos y técnicas de entrenamiento para apoyar a la comunidad de código abierto, enfocándose en razonamiento en matemáticas, codificación, ciencias, uso de herramientas y tareas de instrucción general. Nano 2 está diseñado para caber dentro de los límites de memoria de GPUs de borde comunes y ofrecer baja latencia de pensamiento para flujos de trabajo basados en agentes.
Características clave
- Backbone híbrido Transformer–Mamba diseñado para trazas largas de razonamiento
- La mayoría de las capas son módulos de estado selectivo Mamba‑2 con tiempo lineal y memoria constante por token
- Islas de atención intercaladas conservan la fortaleza del Transformer para vincular hechos distantes
- Ventana de contexto de 128k para razonamiento de contexto largo
- 6x de rendimiento superior frente al siguiente modelo abierto
- Presupuesto de pensamiento configurable para controlar cuánta razonamiento interno realiza el modelo
- Proceso post‑entrenamiento que incluye fine‑tuning supervisado en datos de razonamiento activado/desactivado, aprendizaje por refuerzo y optimización por preferencias
- Compresión y destilación desde una base de 12B a 9B Nano 2 a través de poda y distilación por logits
- Pesos abiertos, conjuntos de datos abiertos y técnicas de entrenamiento a través de la iniciativa de ciencia abierta de NVIDIA
- Modos de razonamiento: razonamiento activado con tokens de cadena de pensamiento y razonamiento desactivado para respuestas directas
- El presupuesto de pensamiento puede reducir la generación de tokens y potencialmente disminuir los costos de inferencia hasta en un 60%
- El modelo está diseñado para ajustarse a los límites de memoria de la A10G y funcionar con contextos de 128k
Casos de uso comunes
- Implementaciones en edge y PC con baja latencia
- Flujo de trabajo de razonamiento en la empresa y IA orientada a agentes
- Resolución de problemas multi‑etapas en matemáticas, codificación, ciencias, uso de herramientas y seguridad
- Llamadas a herramientas y búsquedas RAG donde la memoria y el rendimiento son críticos
- Tareas de razonamiento con contexto largo que requieren pensamiento sostenido sin aumentar la memoria
- Escenarios que requieren ajuste entre precisión y costo mediante el presupuesto de pensamiento
Configuración e instalación
La fuente describe cómo montar un servidor vLLM para Nemotron Nano 2 y experimentar con un presupuesto de pensamiento. Se indica que el modelo estará disponible para descargar e implementar a través de NVIDIA NIM en el futuro, y que NVIDIA ofrece pesos abiertos, conjuntos de datos abiertos y técnicas de entrenamiento para apoyar a la comunidad de código abierto. No se incluyen comandos de instalación exactos en el material proporcionado; consulte el informe técnico para los pasos detallados.
# No proporcionado en el extracto de origen
# Consulte el informe técnico oficial para pasos detallados de configuración
Inicio rápido
Un ejemplo mínimo ejecutable no se proporciona en la fuente; el artículo discute la configuración de un servidor vLLM y un ejemplo de presupuesto de pensamiento. Consulte el informe técnico para pasos y ejemplos concretos.
Pros y contras
Pros
- Precisión líder en su clase para tareas de razonamiento dentro de su rango de parámetros
- Alto rendimiento que habilita etapas de IA con baja latencia
- Pesos y datos abiertos para facilitar la experimentación de la comunidad
- Fijo presupuesto de pensamiento para ajustar entre precisión y costo Contras
- Requiere una gestión cuidadosa de memoria y soporte de hardware (límites de memoria A10G)
- Pipeline de compresión y destilación complejo (configuración profesor‑alumno)
- Ajustar el presupuesto de pensamiento para diferentes dominios puede requerir experimentación
Alternativas (comparaciones breves)
- El modelo 12B base Nemotron se usa como profesor para la destilación para obtener el Nano 2 de 9B; el 12B consume alrededor de 22,9 GiB de memoria para pesos (bfloat16)
- Nano 2 9B está diseñado para caber dentro del límite de memoria de la A10G con un presupuesto objetivo de alrededor de 19,66 GiB y un margen de seguridad del 5%
- Otros modelos abiertos de la familia Nemotron buscan equilibrar precisión y rendimiento; Nano 2 afirma tener una ventaja de rendimiento de 6x frente al siguiente modelo abierto | Modelo | Parámetros | Contexto | Nota de rendimiento | Memoria / presupuesto | Notas |---|---:|---:|---:|---:|---| | Nemotron Nano 2 9B | 9B | 128k | 6x rendimiento mayor que el siguiente modelo abierto | Presupuesto de 19,66 GiB; margen 5% ; 1,3 GiB para codificador de visión | Pesos abiertos, conjuntos de datos abiertos y técnicas de entrenamiento; distilación y post‑entrenamiento usados |Nemotron 12B base (profesor) | 12B | 128k | — | 22,9 GiB para pesos (bfloat16) | Usado como profesor para la distilación hacia Nano 2; mayor huella de memoria |
Precio o Licencia
La publicación enfatiza pesos abiertos, conjuntos de datos abiertos y técnicas de entrenamiento como parte de la ciencia abierta de NVIDIA. No se proporcionan detalles de precio.
Referencias
More resources
CUDA Toolkit 13.0 para Jetson Thor: Ecosistema Unificado de Arm y Más
Kit CUDA unificado para Arm en Jetson Thor con coherencia de memoria total, uso compartido de GPU entre procesos, interoperabilidad OpenRM/dmabuf, soporte NUMA y herramientas mejoradas para embebidos y servidores.
Reducir costos de implementación de modelos manteniendo el rendimiento con intercambio de memoria de GPU
Utiliza el intercambio de memoria de GPU (hot-swapping de modelos) para compartir GPUs entre varios LLM, reducir costos de GPU ociosas y mejorar el autoescalado manteniendo los SLA.
Mejora del autoajuste de GEMM con nvMatmulHeuristics en CUTLASS 4.2
Presenta nvMatmulHeuristics para seleccionar rápidamente un conjunto corto de configuraciones de kernels GEMM con alto potencial para CUTLASS 4.2, reduciendo drásticamente el tiempo de ajuste y acercándose al rendimiento de una búsqueda exhaustiva.
Haz ZeroGPU Spaces más rápido con la compilación ahead-of-time (AoT) de PyTorch
Descubre cómo la compilación AoT de PyTorch acelera ZeroGPU Spaces exportando un modelo compilado y recargándolo al instante, con cuantización FP8, formas dinámicas e integración con Spaces GPU.
Cómo detectar y resolver 5 cuellos de botella de rendimiento en pandas con cudf.pandas
Guía técnica para desarrolladores sobre cinco cuellos de botella comunes de pandas, soluciones CPU/GPU y aceleración GPU con cudf.pandas sin cambiar el código.
Dentro de NVIDIA Blackwell Ultra: el chip que impulsa la era de la fábrica de IA
Perfil detallado de Blackwell Ultra, su diseño de doble dado NV‑HBI, precisión NVFP4, 288 GB HBM3e por GPU e interconexiones de sistema para fábricas de IA e inferencia a gran escala.