Nemotron Nano 2 9B: Modelo de raciocínio aberto com 6x de Throughput para Edge e Empresa

Visão geral

O NVIDIA Nemotron Nano 2 9B é um modelo aberto na família Nemotron, feito para raciocínio de nível empresarial e IA agentic. Ele combina um backbone híbrido Transformer–Mamba com um orçamento de raciocínio configurável para equilibrar precisão, throughput e custo, tornando‑se adequado para hardware de borda e de PC, mantendo alta capacidade de raciocínio. O modelo é lançado com pesos abertos, conjuntos de dados abertos e técnicas de treinamento para apoiar a comunidade de código aberto, mirando raciocínio em matemática, codificação, ciência, uso de ferramentas e instruções gerais. O Nemotron Nano 2 é projetado para caber dentro dos limites de memória de GPUs comuns de borda e oferecer baixa latência de pensamento para fluxos de trabalho baseados em agentes.

Principais recursos

Backbone híbrido Transformer–Mamba projetado para traços longos de raciocínio
A maioria das camadas é composta por módulos de estado seletivo Mamba‑2 com tempo linear e memória constante por token
Ilhas de atenção intercaladas preservam a força do Transformer para ligações entre fatos distantes
Janela de contexto de 128k para raciocínio de contexto longo
6x maior throughput em comparação com o próximo modelo aberto
Orçamento de raciocínio configurável para controlar quanto raciocínio interno o modelo realiza
Processo de pós-treinamento incluindo fine‑tuning supervisionado com dados de raciocínio ligado/desligado, aprendizado por reforço e otimização por preferências
Compressão e destilação do modelo a partir de uma base de 12B para 9B Nano 2 usando poda e distilação por logits
Pesos abertos, conjuntos de dados abertos e técnicas de treinamento através da iniciativa aberta da NVIDIA
Modos de raciocínio: Raciocínio ligado com tokens de cadeia de pensamento e Raciocínio desligado para respostas diretas
O orçamento de raciocínio pode reduzir a geração de tokens e potencialmente diminuir custos de inferência em até 60%
O modelo é projetado para caber nas limitações de memória da placa A10G e operar com 128k de contexto

Casos de uso comuns

Implementações em borda e em PC com foco em baixa latência
Fluxos de trabalho empresariais de raciocínio e IA orientada a agentes
Resolução de problemas em várias etapas de matemática, codificação, ciência, uso de ferramentas e segurança
Chamadas de ferramentas e consultas RAG onde a memória e o throughput são críticos
Tarefas de raciocínio com contexto longo que solicitam pensamento sustentado sem expansão de memória
Cenários que exigem ajuste fino entre precisão e custo por meio do orçamento de raciocínio

Configuração e instalação

A fonte descreve a criação de um servidor vLLM para o Nemotron Nano 2 e a experimentação com um orçamento de raciocínio. Observa que o modelo estará disponível para download e implantação via NVIDIA NIM no futuro e que a NVIDIA oferece pesos abertos, conjuntos de dados abertos e técnicas de treinamento para apoiar a comunidade de código aberto. A documentação com comandos exatos de instalação não está incluída no material fornecido; consulte o relatório técnico para etapas detalhadas de configuração.

# Não fornecido na passagem de origem
# Consulte o relatório técnico oficial para etapas detalhadas de configuração

Quick start

Um exemplo mínimo utilizável não é fornecido na origem; o artigo discute a configuração de um servidor vLLM e um exemplo de orçamento de raciocínio. Consulte o relatório técnico para passos e exemplos concretos.

Vantagens e desvantagens

Vantagens

Precisão líder em seu segmento de tamanho para tarefas de raciocínio
Alto throughput que permite etapas de IA com baixa latência
Pesos e dados abertos facilitando a experimentação da comunidade
Orçamento de raciocínio flexível para ajustar entre exatidão e custo Desvantagens
Requer orçamento cuidadoso de memória e hardware compatível (limites de memória da A10G)
Pipeline de compressão e destilação complexo (configuração de professor–aluno)
Ajustar o orçamento de raciocínio para domínios diferentes pode exigir experimentação

Alternativas (comparações breves)

O modelo 12B base Nemotron é usado como professor para destilação para obter o Nano 2 de 9B; o 12B consome aproximadamente 22,9 GiB de memória para pesos (bfloat16)
O Nano 2 9B foi desenvolvido para caber dentro do limite de memória da A10G, com orçamento alvo de cerca de 19,66 GiB e buffer de 5%
Outros modelos abertos da família Nemotron visam equilibrar precisão e throughput; Nano 2 afirma ter vantagem de 6x no throughput em relação ao próximo modelo aberto | Modelo | Parâmetros | Contexto | Observação de throughput | Memória / orçamento | Notas |---|---:|---:|---:|---:|---| | Nemotron Nano 2 9B | 9B | 128k | 6x maior throughput que o próximo modelo aberto | 19,66 GiB de orçamento; buffer de 5%; 1,3 GiB para codificador de visão | Pesos abertos, dados abertos e técnicas de treinamento; destilação e pós‑treinamento usados |Nemotron 12B base (professor) | 12B | 128k | — | 22,9 GiB para pesos (bfloat16) | Usado como professor para destilação para o Nano 2; pegada de memória maior |

Pricing ou Licença

O post enfatiza pesos abertos, conjuntos de dados abertos e técnicas de treinamento como parte da ciência aberta da NVIDIA. Não há detalhes de preço fornecidos.