Nemotron Nano 2 Open 9B para Raciocínio lidera ranking com 6x de Throughput

TL;DR

Nemotron Nano 2 9B é um modelo de raciocínio enterprise aberto, com pesos abertos e artefatos de treino, projetado para agentes de IA com alto raciocínio de forma precisa e eficiente. Detalhes do Nemotron Nano 2
Introduz orçamento de pensamento configurável e backbone híbrido Transformer–Mamba para equilibrar precisão e throughput em ambientes edge.
O modelo oferece até 6x mais throughput do que o próximo melhor modelo aberto na sua faixa de tamanho e pode reduzir custos de inferência em até 60% com raciocínio seletivo.
A compressão e o distillation geram o Nano 2 de 9B, que cabe dentro dos limites de memória do A10G com 128k de contexto, partindo de um professor de 12B.
Acesso previsto via NVIDIA NIM, com opções de teste por meio do ecossistema de build da NVIDIA (build.nvidia.com).

Contexto e antecedentes

Agentes de IA estão migrando de pesquisas para implantações reais em dispositivos de borda e na nuvem. Para alimentar esses agentes, desenvolvedores precisam de modelos que sejam não apenas precisos, mas também eficientes em raciocínio longo e produção de saídas extensas. A NVIDIA posiciona a família Nemotron como ferramentas abertas para uso empresarial, com pesos abertos, conjuntos de dados abertos e técnicas de treinamento para fomentar a colaboração comunitária e a implementação prática. O foco do Nano 2 é equilibrar desempenho e custo, viabilizando tomada de decisões em tempo real em ambientes de borda sem sacrificar a qualidade do raciocínio. Visão geral A NVIDIA destaca um orçamento de pensamento configurável, permitindo que desenvolvedores ajustem o nível de raciocínio interno conforme metas de latência e orçamento de tokens. Essa funcionalidade é especialmente relevante para fluxos de suporte ao cliente, passos de agentes autônomos e dispositivos de borda, onde cada milésimo de segundo importa. O modelo utiliza um backbone híbrido Transformer–Mamba para manter a acurácia do Transformer enquanto ganha throughput em workloads de raciocínio. A ideia é suportar traços de pensamento prolongados e contexto amplo sem sobrecarregar a memória. Detalhes

O que há de novo

Nemotron Nano 2 traz várias novidades da linha Nemotron:

Modelo e backbone: Nano 2 de 9B com arquitetura híbrida Transformer–Mamba, desenhada para tarefas de raciocínio intenso e saídas de longo alcance. A maior parte das camadas usa módulos de estado‑espaço Mamba‑2 com operação linear e memória por token constante, intercalados com algumas ilhas de atenção para manter a força do Transformer em ligações de fatos distantes. Essa combinação busca manter a acurácia do Transformer ao mesmo tempo que aumenta o throughput. Fonte
Orçamento de pensamento configurável: um orçamento que limita o raciocínio interno, com um mecanismo de parada via tag . Existem dois modos: Raciocínio ON (gera uma cadeia de raciocínio) e Raciocínio OFF (vai direto para a resposta final). O modo ON é o padrão.
Memória, contexto e alinhamento de hardware: Nano 2 almeja 128k de contexto com um orçamento de memória de 19,66 GiB para o modelo de 9B, deixando folga para frameworks e um codificador de visão de 1,3 GiB. O modelo de 12B base consome cerca de 22,9 GiB de memória, o que excede a capacidade do A10G, justificando o processo de compressão para a nova versão. Fonte
Compressão e NAS: O Nano 2 foi obtido por poda de profundidade (de 62 para 56 camadas) e poda de largura (em canais de embedding, dimensão FFN e cabeças Mamba). A busca NAS foi realizada para encontrar a melhor arquitetura dentro do orçamento de memória, recuperando desempenho por meio de distilação de logits com o modelo 12B como professor. Fonte
Pós-treinamento e alinhamento: O modelo passa por ajuste fino supervisionado em um conjunto balanceado de dados que incluem raciocínio ligado e não ligado, cobrindo matemática, ciência, programação, uso de ferramentas, conversação geral e segurança. Em seguida, reforço de aprendizado com otimização de preferência para robustez em tarefas diversas. Fonte
Acesso e código aberto: NVIDIA reforça o compromisso com artefatos abertos e aponta para disponibilidade futura via NIM e deploy via a malha aberta da NVIDIA (build.nvidia.com). Fonte

Destaques técnicos e números

Contexto e memória: O Nano 2 9B é desenhado para 128k de contexto com orçamento de memória de 19,66 GiB, deixando folga para frameworks e 1,3 GiB para codificador de visão. Em comparação, o modelo 12B exige ~22,9 GiB, justificando a compressão para caber no hardware disponível. Fonte
Vantagem de throughput: Nano 2 alcança 6x mais throughput que o próximo modelo aberto na mesma faixa, refletindo o ganho de eficiência com o backbone híbrido e processamento de contexto longo. Fonte
Fluxo de compressão e NAS: A depth foi reduzida de 62 para 56 camadas, com poda adicional de embedding, FFN e cabeças Mamba. Distilação de logits do professor 12B ajuda a recuperar desempenho. Fonte -Ferramentas e implantação: O artigo aponta disponibilidade futura via NVIDIA NIM e a possibilidade de testar por meio do build.nvidia.com, alinhando-se à visão de open ecosystem da NVIDIA. Fonte

Por que isso importa (impacto para desenvolvedores/empresas)

Cobertura edge‑to‑enterprise: Nano 2 é apresentado como modelo para borda e uso empresarial, equilibrando precisão, throughput e custo. O orçamento de pensamento configurável permite ajustar o raciocínio interno para alcançar metas de latência e limites de tokens, o que é crucial para fluxos de suporte ao cliente e dispositivos de borda onde cada milésimo de segundo conta. A janela de contexto de 128k facilita tarefas complexas com múltiplos passos. Fonte
Artefatos abertos para adoção: A NVIDIA reforça o compromisso com pesos abertos, conjuntos de dados e técnicas de treino, permitindo que desenvolvedores ajustem Nano 2 para necessidades específicas de fluxo de trabalho. Essa abertura busca acelerar integração com ferramentas de raciocínio e conduzir aplicações práticas em diferentes domínios. Fonte
Economia de inferência: A estratégia de orçamento de pensamento pode reduzir a geração de tokens desnecessários, resultando em economia de até 60% no custo de inferência, sem comprometer significativamente a acurácia. Isso é especialmente relevante para agentes de suporte ao cliente e cenários de agentes autônomos com restrições de custo. Fonte

Detalhes técnicos ou Implementação (selecionados)

Fluxo de base para final: Partindo de um base 12B híbrido Mamba-Transformer (NVIDIA-Nemotron-Nano-12B-v2-Base), o modelo é pós-treinado e alinhado para tarefas de raciocínio e não raciocínio, seguido de poda e distilação para 9B. O professor 12B consome ~22,9 GiB de bf16, excedendo a capacidade do A10G, o que motivou a compressão. O Nano 2 resultante cabe no orçamento de memória de 19,66 GiB, com folga para frameworks e encoder de visão. Fonte
Busca NAS orientada a memória: A NAS buscou a melhor arquitetura dentro do orçamento, com poda de profundidade (62→56) e poda de largura (embedding, FFN, cabeças Mamba). Distilação de logits do professor 12B foi usada para recuperar o desempenho, em duas fases, para selecionar a melhor configuração final. Fonte
Pós-treinamento e alinhamento: Ajuste supervisionado com dados balanceados, seguida de reforço de aprendizado e otimização baseada em preferências para garantir comportamento desejável e robustez em várias tarefas. Fonte
Uso do orçamento de pensamento no cliente: Um exemplo demonstra como restringir o orçamento de pensamento ao consultar via servidor vLLM, aplicando o orçamento de pensamento para controlar o raciocínio interno e a geração de tokens. Fonte

Destaques finais

Nemotron Nano 2 9B combina alta acurácia com alto throughput usando o backbone híbrido Transformer–Mamba.
O orçamento de pensamento configurável permite equilibrar latência, acurácia e custo, com uma forma de interromper o raciocínio via tag; ON é o padrão.
Atinge cerca de 6x o throughput em relação ao próximo modelo aberto na mesma faixa de tamanho e pode reduzir custos de inferência em até 60% com raciocínio seletivo.
O pipeline de compressão e NAS torna possível transformar um professor 12B em um aluno 9B que cabe no A10G com janela de contexto de 128k.
Artefatos abertos e implantação via NVIDIA NIM refletem a estratégia de ecossistema aberto para adoção empresarial. Fonte

FAQ

Q: O que é o Nemotron Nano 2 9B? A: É o modelo Nano 2, com 9B de parâmetros, projetado para raciocínio de nível empresarial, com backbone híbrido Transformer–Mamba e orçamento de pensamento configurável. Fonte
Q: Como funciona o orçamento de pensamento? A: O orçamento de pensamento restringe o raciocínio interno; é possível inserir a tag para parar o raciocínio e retornar a resposta final. Existem modos ON (com cadeia de raciocínio) e OFF (sem cadeia de raciocínio); ON é o padrão. Fonte
Q: Quais são os requisitos de hardware e memória? A: O Nano 2 de 9B foca 128k contexto com orçamento de 19,66 GiB, incluindo memória reserva para frameworks. O modelo de 12B requer ~22,9 GiB, excedendo o A10G, o que motivou a compressão para o Nano 2. Fonte
Q: Como desenvolvedores podem acessar ou testar o modelo? A: A NVIDIA aponta disponibilidade futura via NIM e teste através do build.nvidia.com, alinhando-se a uma estratégia de ecossistema aberto para adoção empresarial. Fonte
Q: O que diferencia Nano 2 de modelos puramente Transformer? A: Nano 2 usa um backbone híbrido Transformer–Mamba que aumenta o throughput em tarefas de raciocínio, mantendo acurácia do Transformer, com orçamento de pensamento configurável para ajustar latência e custo. Fonte