Nemotron Nano 2 Open 9B para Raciocínio lidera ranking com 6x de Throughput
Sources: https://huggingface.co/blog/nvidia/supercharge-ai-reasoning-with-nemotron-nano-2, https://huggingface.co/blog/nvidia/supercharge-ai-reasoning-with-nemotron-nano-2?nvid=nv-int-tblg-513492+, huggingface.co
TL;DR
- Nemotron Nano 2 9B é um modelo de raciocínio enterprise aberto, com pesos abertos e artefatos de treino, projetado para agentes de IA com alto raciocínio de forma precisa e eficiente. Detalhes do Nemotron Nano 2
- Introduz orçamento de pensamento configurável e backbone híbrido Transformer–Mamba para equilibrar precisão e throughput em ambientes edge.
- O modelo oferece até 6x mais throughput do que o próximo melhor modelo aberto na sua faixa de tamanho e pode reduzir custos de inferência em até 60% com raciocínio seletivo.
- A compressão e o distillation geram o Nano 2 de 9B, que cabe dentro dos limites de memória do A10G com 128k de contexto, partindo de um professor de 12B.
- Acesso previsto via NVIDIA NIM, com opções de teste por meio do ecossistema de build da NVIDIA (build.nvidia.com).
Contexto e antecedentes
Agentes de IA estão migrando de pesquisas para implantações reais em dispositivos de borda e na nuvem. Para alimentar esses agentes, desenvolvedores precisam de modelos que sejam não apenas precisos, mas também eficientes em raciocínio longo e produção de saídas extensas. A NVIDIA posiciona a família Nemotron como ferramentas abertas para uso empresarial, com pesos abertos, conjuntos de dados abertos e técnicas de treinamento para fomentar a colaboração comunitária e a implementação prática. O foco do Nano 2 é equilibrar desempenho e custo, viabilizando tomada de decisões em tempo real em ambientes de borda sem sacrificar a qualidade do raciocínio. Visão geral A NVIDIA destaca um orçamento de pensamento configurável, permitindo que desenvolvedores ajustem o nível de raciocínio interno conforme metas de latência e orçamento de tokens. Essa funcionalidade é especialmente relevante para fluxos de suporte ao cliente, passos de agentes autônomos e dispositivos de borda, onde cada milésimo de segundo importa. O modelo utiliza um backbone híbrido Transformer–Mamba para manter a acurácia do Transformer enquanto ganha throughput em workloads de raciocínio. A ideia é suportar traços de pensamento prolongados e contexto amplo sem sobrecarregar a memória. Detalhes
O que há de novo
Nemotron Nano 2 traz várias novidades da linha Nemotron:
- Modelo e backbone: Nano 2 de 9B com arquitetura híbrida Transformer–Mamba, desenhada para tarefas de raciocínio intenso e saídas de longo alcance. A maior parte das camadas usa módulos de estado‑espaço Mamba‑2 com operação linear e memória por token constante, intercalados com algumas ilhas de atenção para manter a força do Transformer em ligações de fatos distantes. Essa combinação busca manter a acurácia do Transformer ao mesmo tempo que aumenta o throughput. Fonte
- Orçamento de pensamento configurável: um orçamento que limita o raciocínio interno, com um mecanismo de parada via tag . Existem dois modos: Raciocínio ON (gera uma cadeia de raciocínio) e Raciocínio OFF (vai direto para a resposta final). O modo ON é o padrão.
- Memória, contexto e alinhamento de hardware: Nano 2 almeja 128k de contexto com um orçamento de memória de 19,66 GiB para o modelo de 9B, deixando folga para frameworks e um codificador de visão de 1,3 GiB. O modelo de 12B base consome cerca de 22,9 GiB de memória, o que excede a capacidade do A10G, justificando o processo de compressão para a nova versão. Fonte
- Compressão e NAS: O Nano 2 foi obtido por poda de profundidade (de 62 para 56 camadas) e poda de largura (em canais de embedding, dimensão FFN e cabeças Mamba). A busca NAS foi realizada para encontrar a melhor arquitetura dentro do orçamento de memória, recuperando desempenho por meio de distilação de logits com o modelo 12B como professor. Fonte
- Pós-treinamento e alinhamento: O modelo passa por ajuste fino supervisionado em um conjunto balanceado de dados que incluem raciocínio ligado e não ligado, cobrindo matemática, ciência, programação, uso de ferramentas, conversação geral e segurança. Em seguida, reforço de aprendizado com otimização de preferência para robustez em tarefas diversas. Fonte
- Acesso e código aberto: NVIDIA reforça o compromisso com artefatos abertos e aponta para disponibilidade futura via NIM e deploy via a malha aberta da NVIDIA (build.nvidia.com). Fonte
Destaques técnicos e números
- Contexto e memória: O Nano 2 9B é desenhado para 128k de contexto com orçamento de memória de 19,66 GiB, deixando folga para frameworks e 1,3 GiB para codificador de visão. Em comparação, o modelo 12B exige ~22,9 GiB, justificando a compressão para caber no hardware disponível. Fonte
- Vantagem de throughput: Nano 2 alcança 6x mais throughput que o próximo modelo aberto na mesma faixa, refletindo o ganho de eficiência com o backbone híbrido e processamento de contexto longo. Fonte
- Fluxo de compressão e NAS: A depth foi reduzida de 62 para 56 camadas, com poda adicional de embedding, FFN e cabeças Mamba. Distilação de logits do professor 12B ajuda a recuperar desempenho. Fonte -Ferramentas e implantação: O artigo aponta disponibilidade futura via NVIDIA NIM e a possibilidade de testar por meio do build.nvidia.com, alinhando-se à visão de open ecosystem da NVIDIA. Fonte
Por que isso importa (impacto para desenvolvedores/empresas)
- Cobertura edge‑to‑enterprise: Nano 2 é apresentado como modelo para borda e uso empresarial, equilibrando precisão, throughput e custo. O orçamento de pensamento configurável permite ajustar o raciocínio interno para alcançar metas de latência e limites de tokens, o que é crucial para fluxos de suporte ao cliente e dispositivos de borda onde cada milésimo de segundo conta. A janela de contexto de 128k facilita tarefas complexas com múltiplos passos. Fonte
- Artefatos abertos para adoção: A NVIDIA reforça o compromisso com pesos abertos, conjuntos de dados e técnicas de treino, permitindo que desenvolvedores ajustem Nano 2 para necessidades específicas de fluxo de trabalho. Essa abertura busca acelerar integração com ferramentas de raciocínio e conduzir aplicações práticas em diferentes domínios. Fonte
- Economia de inferência: A estratégia de orçamento de pensamento pode reduzir a geração de tokens desnecessários, resultando em economia de até 60% no custo de inferência, sem comprometer significativamente a acurácia. Isso é especialmente relevante para agentes de suporte ao cliente e cenários de agentes autônomos com restrições de custo. Fonte
Detalhes técnicos ou Implementação (selecionados)
- Fluxo de base para final: Partindo de um base 12B híbrido Mamba-Transformer (NVIDIA-Nemotron-Nano-12B-v2-Base), o modelo é pós-treinado e alinhado para tarefas de raciocínio e não raciocínio, seguido de poda e distilação para 9B. O professor 12B consome ~22,9 GiB de bf16, excedendo a capacidade do A10G, o que motivou a compressão. O Nano 2 resultante cabe no orçamento de memória de 19,66 GiB, com folga para frameworks e encoder de visão. Fonte
- Busca NAS orientada a memória: A NAS buscou a melhor arquitetura dentro do orçamento, com poda de profundidade (62→56) e poda de largura (embedding, FFN, cabeças Mamba). Distilação de logits do professor 12B foi usada para recuperar o desempenho, em duas fases, para selecionar a melhor configuração final. Fonte
- Pós-treinamento e alinhamento: Ajuste supervisionado com dados balanceados, seguida de reforço de aprendizado e otimização baseada em preferências para garantir comportamento desejável e robustez em várias tarefas. Fonte
- Uso do orçamento de pensamento no cliente: Um exemplo demonstra como restringir o orçamento de pensamento ao consultar via servidor vLLM, aplicando o orçamento de pensamento para controlar o raciocínio interno e a geração de tokens. Fonte
Destaques finais
- Nemotron Nano 2 9B combina alta acurácia com alto throughput usando o backbone híbrido Transformer–Mamba.
- O orçamento de pensamento configurável permite equilibrar latência, acurácia e custo, com uma forma de interromper o raciocínio via tag; ON é o padrão.
- Atinge cerca de 6x o throughput em relação ao próximo modelo aberto na mesma faixa de tamanho e pode reduzir custos de inferência em até 60% com raciocínio seletivo.
- O pipeline de compressão e NAS torna possível transformar um professor 12B em um aluno 9B que cabe no A10G com janela de contexto de 128k.
- Artefatos abertos e implantação via NVIDIA NIM refletem a estratégia de ecossistema aberto para adoção empresarial. Fonte
FAQ
- Q: O que é o Nemotron Nano 2 9B? A: É o modelo Nano 2, com 9B de parâmetros, projetado para raciocínio de nível empresarial, com backbone híbrido Transformer–Mamba e orçamento de pensamento configurável. Fonte
- Q: Como funciona o orçamento de pensamento? A: O orçamento de pensamento restringe o raciocínio interno; é possível inserir a tag para parar o raciocínio e retornar a resposta final. Existem modos ON (com cadeia de raciocínio) e OFF (sem cadeia de raciocínio); ON é o padrão. Fonte
- Q: Quais são os requisitos de hardware e memória? A: O Nano 2 de 9B foca 128k contexto com orçamento de 19,66 GiB, incluindo memória reserva para frameworks. O modelo de 12B requer ~22,9 GiB, excedendo o A10G, o que motivou a compressão para o Nano 2. Fonte
- Q: Como desenvolvedores podem acessar ou testar o modelo? A: A NVIDIA aponta disponibilidade futura via NIM e teste através do build.nvidia.com, alinhando-se a uma estratégia de ecossistema aberto para adoção empresarial. Fonte
- Q: O que diferencia Nano 2 de modelos puramente Transformer? A: Nano 2 usa um backbone híbrido Transformer–Mamba que aumenta o throughput em tarefas de raciocínio, mantendo acurácia do Transformer, com orçamento de pensamento configurável para ajustar latência e custo. Fonte
Referências
More news
NVIDIA HGX B200 reduz a Intensidade de Emissões de Carbono Incorporado
O HGX B200 da NVIDIA reduz 24% da intensidade de carbono incorporado em relação ao HGX H100, ao mesmo tempo em que aumenta o desempenho de IA e a eficiência energética. Esta análise resume os dados de PCF e as novidades de hardware.
Scaleway Como Novo Fornecedor de Inferência no Hugging Face para Inferência serverless de Baixa Latência
A Scaleway é agora um Fornecedor de Inferência compatível no Hugging Face Hub, permitindo inferência serverless diretamente nas páginas de modelo com as SDKs JS e Python. Acesse modelos abertos populares com operações escaláveis e baixa latência.
Modelos Falcon-H1 da TII disponíveis no Amazon Bedrock Marketplace e no SageMaker JumpStart
A AWS anuncia os modelos Falcon-H1 de instrução da TII (0,5B–34B) no Amazon Bedrock Marketplace e no SageMaker JumpStart, com suporte multilíngue, arquitetura híbrida e orientações de implantação.
Faça seus ZeroGPU Spaces trabalharem rápido com compilação ahead-of-time do PyTorch
Spaces com ZeroGPU ganham demos mais rápidas em hardware Nvidia H200 por meio da compilação ahead-of-time (AoT) do PyTorch, com inicialização mais ágil e inferência eficiente, suporte a FP8 e formas dinâmicas.
Faça seus ZeroGPU Spaces ficarem mais rápidos com compilação AoT do PyTorch
Descubra como a compilação ahead-of-time (AoT) do PyTorch acelera ZeroGPU Spaces em GPUs Nvidia H200, com recarregamento instantâneo, quantização FP8, formas dinâmicas e ganhos de desempenho práticos (1,3x–1,8x) para Flux, Wan e LTX.
NVIDIA Jetson Thor: a plataforma definitiva para IA física
Jetson Thor oferece IA na borda em escala, possibilitando raciocínio generativo rápido, múltiplos modelos e processamento multimodal em tempo real com GPU Blackwell, MIG, FP4/FP8 e 128 GB de memória para plataformas robóticas de próxima geração.