Skip to content
 Nemotron Nano 2 Open 9B para Raciocínio lidera ranking com 6x de Throughput
Source: huggingface.co

Nemotron Nano 2 Open 9B para Raciocínio lidera ranking com 6x de Throughput

Sources: https://huggingface.co/blog/nvidia/supercharge-ai-reasoning-with-nemotron-nano-2, https://huggingface.co/blog/nvidia/supercharge-ai-reasoning-with-nemotron-nano-2?nvid=nv-int-tblg-513492+, huggingface.co

TL;DR

  • Nemotron Nano 2 9B é um modelo de raciocínio enterprise aberto, com pesos abertos e artefatos de treino, projetado para agentes de IA com alto raciocínio de forma precisa e eficiente. Detalhes do Nemotron Nano 2
  • Introduz orçamento de pensamento configurável e backbone híbrido Transformer–Mamba para equilibrar precisão e throughput em ambientes edge.
  • O modelo oferece até 6x mais throughput do que o próximo melhor modelo aberto na sua faixa de tamanho e pode reduzir custos de inferência em até 60% com raciocínio seletivo.
  • A compressão e o distillation geram o Nano 2 de 9B, que cabe dentro dos limites de memória do A10G com 128k de contexto, partindo de um professor de 12B.
  • Acesso previsto via NVIDIA NIM, com opções de teste por meio do ecossistema de build da NVIDIA (build.nvidia.com).

Contexto e antecedentes

Agentes de IA estão migrando de pesquisas para implantações reais em dispositivos de borda e na nuvem. Para alimentar esses agentes, desenvolvedores precisam de modelos que sejam não apenas precisos, mas também eficientes em raciocínio longo e produção de saídas extensas. A NVIDIA posiciona a família Nemotron como ferramentas abertas para uso empresarial, com pesos abertos, conjuntos de dados abertos e técnicas de treinamento para fomentar a colaboração comunitária e a implementação prática. O foco do Nano 2 é equilibrar desempenho e custo, viabilizando tomada de decisões em tempo real em ambientes de borda sem sacrificar a qualidade do raciocínio. Visão geral A NVIDIA destaca um orçamento de pensamento configurável, permitindo que desenvolvedores ajustem o nível de raciocínio interno conforme metas de latência e orçamento de tokens. Essa funcionalidade é especialmente relevante para fluxos de suporte ao cliente, passos de agentes autônomos e dispositivos de borda, onde cada milésimo de segundo importa. O modelo utiliza um backbone híbrido Transformer–Mamba para manter a acurácia do Transformer enquanto ganha throughput em workloads de raciocínio. A ideia é suportar traços de pensamento prolongados e contexto amplo sem sobrecarregar a memória. Detalhes

O que há de novo

Nemotron Nano 2 traz várias novidades da linha Nemotron:

  • Modelo e backbone: Nano 2 de 9B com arquitetura híbrida Transformer–Mamba, desenhada para tarefas de raciocínio intenso e saídas de longo alcance. A maior parte das camadas usa módulos de estado‑espaço Mamba‑2 com operação linear e memória por token constante, intercalados com algumas ilhas de atenção para manter a força do Transformer em ligações de fatos distantes. Essa combinação busca manter a acurácia do Transformer ao mesmo tempo que aumenta o throughput. Fonte
  • Orçamento de pensamento configurável: um orçamento que limita o raciocínio interno, com um mecanismo de parada via tag . Existem dois modos: Raciocínio ON (gera uma cadeia de raciocínio) e Raciocínio OFF (vai direto para a resposta final). O modo ON é o padrão.
  • Memória, contexto e alinhamento de hardware: Nano 2 almeja 128k de contexto com um orçamento de memória de 19,66 GiB para o modelo de 9B, deixando folga para frameworks e um codificador de visão de 1,3 GiB. O modelo de 12B base consome cerca de 22,9 GiB de memória, o que excede a capacidade do A10G, justificando o processo de compressão para a nova versão. Fonte
  • Compressão e NAS: O Nano 2 foi obtido por poda de profundidade (de 62 para 56 camadas) e poda de largura (em canais de embedding, dimensão FFN e cabeças Mamba). A busca NAS foi realizada para encontrar a melhor arquitetura dentro do orçamento de memória, recuperando desempenho por meio de distilação de logits com o modelo 12B como professor. Fonte
  • Pós-treinamento e alinhamento: O modelo passa por ajuste fino supervisionado em um conjunto balanceado de dados que incluem raciocínio ligado e não ligado, cobrindo matemática, ciência, programação, uso de ferramentas, conversação geral e segurança. Em seguida, reforço de aprendizado com otimização de preferência para robustez em tarefas diversas. Fonte
  • Acesso e código aberto: NVIDIA reforça o compromisso com artefatos abertos e aponta para disponibilidade futura via NIM e deploy via a malha aberta da NVIDIA (build.nvidia.com). Fonte

Destaques técnicos e números

  • Contexto e memória: O Nano 2 9B é desenhado para 128k de contexto com orçamento de memória de 19,66 GiB, deixando folga para frameworks e 1,3 GiB para codificador de visão. Em comparação, o modelo 12B exige ~22,9 GiB, justificando a compressão para caber no hardware disponível. Fonte
  • Vantagem de throughput: Nano 2 alcança 6x mais throughput que o próximo modelo aberto na mesma faixa, refletindo o ganho de eficiência com o backbone híbrido e processamento de contexto longo. Fonte
  • Fluxo de compressão e NAS: A depth foi reduzida de 62 para 56 camadas, com poda adicional de embedding, FFN e cabeças Mamba. Distilação de logits do professor 12B ajuda a recuperar desempenho. Fonte -Ferramentas e implantação: O artigo aponta disponibilidade futura via NVIDIA NIM e a possibilidade de testar por meio do build.nvidia.com, alinhando-se à visão de open ecosystem da NVIDIA. Fonte

Por que isso importa (impacto para desenvolvedores/empresas)

  • Cobertura edge‑to‑enterprise: Nano 2 é apresentado como modelo para borda e uso empresarial, equilibrando precisão, throughput e custo. O orçamento de pensamento configurável permite ajustar o raciocínio interno para alcançar metas de latência e limites de tokens, o que é crucial para fluxos de suporte ao cliente e dispositivos de borda onde cada milésimo de segundo conta. A janela de contexto de 128k facilita tarefas complexas com múltiplos passos. Fonte
  • Artefatos abertos para adoção: A NVIDIA reforça o compromisso com pesos abertos, conjuntos de dados e técnicas de treino, permitindo que desenvolvedores ajustem Nano 2 para necessidades específicas de fluxo de trabalho. Essa abertura busca acelerar integração com ferramentas de raciocínio e conduzir aplicações práticas em diferentes domínios. Fonte
  • Economia de inferência: A estratégia de orçamento de pensamento pode reduzir a geração de tokens desnecessários, resultando em economia de até 60% no custo de inferência, sem comprometer significativamente a acurácia. Isso é especialmente relevante para agentes de suporte ao cliente e cenários de agentes autônomos com restrições de custo. Fonte

Detalhes técnicos ou Implementação (selecionados)

  • Fluxo de base para final: Partindo de um base 12B híbrido Mamba-Transformer (NVIDIA-Nemotron-Nano-12B-v2-Base), o modelo é pós-treinado e alinhado para tarefas de raciocínio e não raciocínio, seguido de poda e distilação para 9B. O professor 12B consome ~22,9 GiB de bf16, excedendo a capacidade do A10G, o que motivou a compressão. O Nano 2 resultante cabe no orçamento de memória de 19,66 GiB, com folga para frameworks e encoder de visão. Fonte
  • Busca NAS orientada a memória: A NAS buscou a melhor arquitetura dentro do orçamento, com poda de profundidade (62→56) e poda de largura (embedding, FFN, cabeças Mamba). Distilação de logits do professor 12B foi usada para recuperar o desempenho, em duas fases, para selecionar a melhor configuração final. Fonte
  • Pós-treinamento e alinhamento: Ajuste supervisionado com dados balanceados, seguida de reforço de aprendizado e otimização baseada em preferências para garantir comportamento desejável e robustez em várias tarefas. Fonte
  • Uso do orçamento de pensamento no cliente: Um exemplo demonstra como restringir o orçamento de pensamento ao consultar via servidor vLLM, aplicando o orçamento de pensamento para controlar o raciocínio interno e a geração de tokens. Fonte

Destaques finais

  • Nemotron Nano 2 9B combina alta acurácia com alto throughput usando o backbone híbrido Transformer–Mamba.
  • O orçamento de pensamento configurável permite equilibrar latência, acurácia e custo, com uma forma de interromper o raciocínio via tag; ON é o padrão.
  • Atinge cerca de 6x o throughput em relação ao próximo modelo aberto na mesma faixa de tamanho e pode reduzir custos de inferência em até 60% com raciocínio seletivo.
  • O pipeline de compressão e NAS torna possível transformar um professor 12B em um aluno 9B que cabe no A10G com janela de contexto de 128k.
  • Artefatos abertos e implantação via NVIDIA NIM refletem a estratégia de ecossistema aberto para adoção empresarial. Fonte

FAQ

  • Q: O que é o Nemotron Nano 2 9B? A: É o modelo Nano 2, com 9B de parâmetros, projetado para raciocínio de nível empresarial, com backbone híbrido Transformer–Mamba e orçamento de pensamento configurável. Fonte
  • Q: Como funciona o orçamento de pensamento? A: O orçamento de pensamento restringe o raciocínio interno; é possível inserir a tag para parar o raciocínio e retornar a resposta final. Existem modos ON (com cadeia de raciocínio) e OFF (sem cadeia de raciocínio); ON é o padrão. Fonte
  • Q: Quais são os requisitos de hardware e memória? A: O Nano 2 de 9B foca 128k contexto com orçamento de 19,66 GiB, incluindo memória reserva para frameworks. O modelo de 12B requer ~22,9 GiB, excedendo o A10G, o que motivou a compressão para o Nano 2. Fonte
  • Q: Como desenvolvedores podem acessar ou testar o modelo? A: A NVIDIA aponta disponibilidade futura via NIM e teste através do build.nvidia.com, alinhando-se a uma estratégia de ecossistema aberto para adoção empresarial. Fonte
  • Q: O que diferencia Nano 2 de modelos puramente Transformer? A: Nano 2 usa um backbone híbrido Transformer–Mamba que aumenta o throughput em tarefas de raciocínio, mantendo acurácia do Transformer, com orçamento de pensamento configurável para ajustar latência e custo. Fonte

Referências

More news