Nuevo Nemotron Nano 2: modelo de razonamiento abierto líder con 6x de rendimiento
Sources: https://huggingface.co/blog/nvidia/supercharge-ai-reasoning-with-nemotron-nano-2, https://huggingface.co/blog/nvidia/supercharge-ai-reasoning-with-nemotron-nano-2?nvid=nv-int-tblg-513492+, huggingface.co
TL;DR
- Nemotron Nano 2 9B es un modelo de razonamiento abierto orientado a la precisión empresarial en dispositivos edge.
- Ofrece hasta 6x más rendimiento que el siguiente mejor modelo abierto en su rango de tamaño.
- Un presupuesto de pensamiento configurable permite a los desarrolladores equilibrar precisión, uso de tokens y costo de inferencia controlando el razonamiento interno.
- La arquitectura híbrida Transformer–Mamba favorece la velocidad mediante módulos Mamba‑2 de tiempo lineal y memoria constante por token.
- Está diseñado para caber dentro de los límites de memoria del NVIDIA A10G (con contexto de 128k) tras compresión desde un modelo base de 12B, facilitando despliegues en edge.
Contexto y antecedentes
Las entidades de IA están mainstream desde edge hasta la nube, y requieren tanto precisión como eficiencia para soportar razonamiento y planificación autónomos. NVIDIA presenta Nemotron Nano 2 9B como el último modelo abierto de la familia Nemotron, destinado a razonamiento a nivel empresarial y flujos de trabajo con agentes. El modelo introduce un presupuesto de pensamiento configurable para limitar el razonamiento interno y una columna vertebral híbrida Transformer–Mamba para mantener la precisión mientras aumenta el rendimiento gracias a componentes Mamba. NVIDIA enfatiza el uso de pesos abiertos, conjuntos de datos abiertos y técnicas de entrenamiento para apoyar a la comunidad de código abierto.
Novedades
El Nemotron Nano 2 9B integra varias mejoras:
- Presupuesto de pensamiento configurable: se puede fijar un límite al razonamiento interno; un ejemplo práctico muestra un cliente con un presupuesto de 32 tokens en una configuración vLLM.
- Arquitectura híbrida Transformer–Mamba: la mayor parte de las capas son módulos Mamba‑2 (tiempo lineal, memoria constante por token) con algunas islas de atención para mantener la capacidad de saltos globales.
- Proceso de post‑entrenamiento y distilación: tras un fine‑tuning supervisado en datos que combinan razonamiento y no razonamiento en áreas como matemáticas, ciencia, programación, uso de herramientas y seguridad, el modelo se refina con aprendizaje por refuerzo y optimización por preferencias para alinear y robustecer.
- Compresión y NAS: Nano 2 9B se obtiene mediante pruning de un modelo base de 12B, que pesa 22.9 GiB en bf16; el modelo final se comprime para ajustarse a la memoria y alcanzar 9B parámetros. Se realiza una búsqueda NAS en dos fases y distilación de logits con el 12B como maestro para recuperar desempeño.
- Contexto y memoria: diseñado para trabajar con un contexto de 128k y un presupuesto de memoria de 19.66 GiB para pesos, más buffers (5% para frameworks como vLLM) y 1.3 GiB para un codificador de visión, para encajar en hardware como el A10G.
- Eficiencia de inferencia y rendimiento: la arquitectura híbrida ofrece mayor tokens por segundo y menor uso de memoria frente a modelos Transformer puros en configuraciones de razonamiento.
- Artefactos abiertos y plan de liberación: NVIDIA subraya el código abierto de pesos, conjuntos de datos y técnicas para apoyar a la comunidad, con planes de distribuir el Nemotron Nano 9B V2 a través de NVIDIA NIM en el futuro.
Por qué importa (impacto para desarrolladores/empresas)
- Relevancia para edge y empresa: al combinar precisión con eficiencia, Nano 2 apunta a cargas de razonamiento que requieren exactitud y respuestas rápidas en entornos con recursos limitados.
- Eficiencia de costos: el presupuesto de pensamiento puede reducir la generación de tokens y los costos de inferencia en hasta aproximadamente 60% sin perder precisión de forma significativa.
- Enfoque abierto: con pesos y datasets abiertos, los desarrolladores pueden adaptar la familia Nemotron a sus casos de uso y mejorar la confiabilidad de llamadas a herramientas y comprensión de contextos largos.
- Adaptación a memoria: Nano 2 está diseñado para caber dentro de la memoria del A10G, manteniendo un contexto amplio de 128k para flujos de razonamiento complejos.
Detalles técnicos o implementación
- Arquitectura: columna vertebral híbrida Transformer–Mamba para cargas de razonamiento y salidas largas. La mayoría de capas usan módulos Mamba‑2 (tiempo lineal, memoria constante por token) con unas pocas islas de atención que conservan la capacidad de salto global.
- Proceso de entrenamiento y alineamiento: fine‑tuning supervisado en datos que mezclan razonamiento y no razonamiento, seguido de RL y optimización por preferencias para alinear y robustecer.
- Compresión y NAS: el modelo 12B se poda hasta 9B, con 56 capas frente a 62, y ajustes de ancho en embedding, FFN y cabezas Mamba. La búsqueda NAS en dos fases determina la mejor estructura y luego se realiza distilación de logits del 12B para recuperar desempeño.
- Contexto y memoria: soporte para contexto de 128k y presupuesto de memoria de 19.66 GiB para pesos, con 5% para frameworks y 1.3 GiB para codificador de visión.
- Budget de pensamiento y cliente: el presupuesto de pensamiento restringe el razonamiento interno, con demostración de cliente utilizando vLLM para imponer límites (ejemplo de 32 tokens).
- Artefactos abiertos y publicación: NVIDIA enfatiza la apertura de pesos, datasets y técnicas para la comunidad, con planes de liberar Nano 9B V2 a través de NVIDIA NIM próximamente.
| Elemento | Valor o descripción |
|---|---|
| Tamaño del modelo base antes de compresión | 12B (Nemotron Nano 12B) |
| Memoria del modelo base (bf16) | 22.9 GiB |
| Tamaño final comprimido (Nano 2) | 9B parámetros |
| Presupuesto de memoria para pesos | 19.66 GiB |
| Buffer para frameworks | 5% |
| Memoria del codificador de visión | 1.3 GiB |
| Contexto máximo | 128k |
| Capas tras poda | 56 (de 62) |
| Rendimiento declarado | 6x mayor que el siguiente modelo abierto |
| Efecto del presupuesto de pensamiento | Potencial reducción de costes de inferencia hasta ~60% |
| Modos de pensamiento | ON (con razonamiento) y OFF (respuesta directa) |
| Artefactos abiertos | Datasets y técnicas de post‑formación y pre‑formación |
Conclusiones clave
- Nano 2 9B alcanza precisión líder en su rango con un rendimiento considerable gracias a una arquitectura híbrida Transformer–Mamba.
- El presupuesto de pensamiento permite equilibrar la profundidad del razonamiento, la precisión y el coste, con potencial de reducción de tokens e inferencia.
- La compresión de 12B a 9B permite despliegue en edge con memoria limitada, manteniendo capacidades de contexto largo.
- La arquitectura equilibra razonamiento de largo alcance y eficiencia de memoria por token, buscando reducir la latencia en implementaciones edge sin sacrificar el razonamiento global.
- NVIDIA mantiene un enfoque abierto con pesos y conjuntos de datos para facilitar la adaptación de Nemotron a usos específicos.
FAQ
Referencias
More news
NVIDIA HGX B200 reduce la intensidad de las emisiones de carbono incorporado
El HGX B200 de NVIDIA reduce la intensidad de carbono incorporado en un 24% frente al HGX H100, al tiempo que ofrece mayor rendimiento de IA y eficiencia energética. Este artículo resume los datos PCF y las novedades de hardware.
Scaleway se une a los Proveedores de Inferencia de Hugging Face para Inferencia Serverless y de Baja Latencia
Scaleway es ahora un Proveedor de Inferencia soportado en Hugging Face Hub, lo que permite inferencia serverless directamente en las páginas de modelos con los SDK de JS y Python. Accede a modelos open-weight populares y disfruta de flujos de IA escalables y de baja latencia.
Modelos Falcon-H1 de TII ya disponibles en Amazon Bedrock Marketplace y SageMaker JumpStart
AWS anuncia los modelos Falcon-H1 de TII (0,5B–34B) en Amazon Bedrock Marketplace y SageMaker JumpStart, con soporte multilingüe, arquitectura híbrida y guía de implementación.
Acelera ZeroGPU Spaces con la compilación AoT de PyTorch
Descubre cómo la compilación Ahead-of-Time (AoT) de PyTorch acelera ZeroGPU Spaces exportando y recargando modelos optimizados, con cuantización FP8, formas dinámicas y demos prácticas.
Haz que tus ZeroGPU Spaces vayan más rápido con la compilación AoT de PyTorch
Descubre cómo la compilación ahead-of-time (AoT) de PyTorch acelera ZeroGPU Spaces en GPUs Nvidia H200, con recarga instantánea, cuantización FP8, formas dinámicas y ganancias de rendimiento (1.3×–1.8×) para Flux, Wan y LTX.
Novedades de CUDA Toolkit 13.0 para Jetson Thor: Ecosistema ARM Unificado y más
CUDA Toolkit 13.0 para Jetson Thor unifica herramientas ARM, habilita Memoria Virtual Unificada, compartición avanzada de GPU, interoperabilidad OpenRM/dmabuf, soporte NUMA y herramientas de desarrollo mejoradas para cargas de IA en edge.