NVFP4 Treina com Precisão de 16 Bits e Velocidade e Eficiência de 4 Bits
Sources: https://developer.nvidia.com/blog/nvfp4-trains-with-precision-of-16-bit-and-speed-and-efficiency-of-4-bit, https://developer.nvidia.com/blog/nvfp4-trains-with-precision-of-16-bit-and-speed-and-efficiency-of-4-bit/, NVIDIA Dev Blog
Visão geral
As cargas de trabalho de IA cresceram exponencialmente — não apenas na implantação de grandes modelos de linguagem (LLMs), mas também na demanda por processar tokens durante o pré-treinamento e o pós-treinamento. À medida que organizações ampliam a infraestrutura de computação para treinar e implantar modelos de bilhões de parâmetros, a taxa de throughput de tokens torna-se crítica. Fábricas de IA são definidas por quantos tokens conseguem processar para desbloquear novas capacidades. Formatos de dados otimizados para IA tornaram-se uma inovação chave nesse esforço. A computação de precisão estreita já transformou a inferência, com a introdução da NVFP4, um formato de 4 bits criado para oferecer baixa latência de inferência, alto throughput e eficiência — mantendo exatidão em produção. Agora, a NVIDIA estende essa inovação ao pré-treinamento, marcando um grande avanço no desenvolvimento de LLMs. Usar NVFP4 para pré-treinamento desbloqueia melhorias significativas no treinamento de LLMs em escala e na eficiência geral da infraestrutura. Não se trata apenas de uma otimização incremental — é uma mudança fundamental na forma como modelos grandes podem ser treinados em escala. Na era das fábricas de IA, onde o compute é o motor do progresso, a precisão não é mais um detalhe de back-end — é uma vantagem estratégica. O pré-treinamento em 4 bits com NVFP4 redefine os limites de eficiência e escalabilidade, estabelecendo um novo padrão para o desenvolvimento de modelos de IA de alto desempenho. O treinamento com NVFP4 ainda está em fase de pesquisa, explorando e validando o potencial da precisão de 4 bits no pré-treinamento de larga escala. Engajamentos ativos e colaboração contínua em torno do NVFP4 seguem com organizações líderes como AWS, Cohere, Google Cloud, Kimi AI, Microsoft AI, Mistral, OpenAI, Perplexity, Reflection e Runway. 4-bit quantization refere-se ao processo de reduzir a precisão dos pesos e ativações de um modelo para apenas 4 bits — uma queda dramática em relação aos formatos de ponto flutuante típicos de 16 ou 32 bits. O pré-treinamento com 4 bits é desafiador porque gradientes e atualizações precisam ser tratados com muito cuidado para preservar a exatidão enquanto se melhora a velocidade de treinamento. Técnicas especializadas e receitas são necessárias para manter a efetividade ao mapear tensores de alta precisão para um conjunto muito menor de valores quantizados. Nos últimos anos, as cargas de IA cresceram não apenas na implantação de LLMs, mas também na escala do pré-treinamento e do pós-treinamento de modelos de base. À medida que as organizações expandem a infraestrutura para treinar e implantar modelos de múltiplos bilhões de parâmetros, o progresso é definido por quanto throughput de tokens uma fábrica de IA pode sustentar para desbloquear novas capacidades. A inferência já passou por várias ondas de inovação, desde FP32 e FP16 até FP8 e, mais recentemente, a liberação da NVFP4 para inferência de IA. Embora métodos como quantização pós-treinamento (PTQ) tenham mostrado a NVFP4 como multiplicador de força para aumentar o throughput de inferência mantendo a exatidão, ainda existe um desafio upstream no pré-treinamento — onde os modelos de base ainda dependem de BF16 ou FP8 para estabilidade e convergência. O treinamento é onde as fábricas de IA podem gastar a maior parte de seus recursos de computação, energia e tempo. Orçamentos de energia são fixos e os ciclos de GPU são escassos, então os desenvolvedores devem levar em conta cada bit, token e época. O throughput não é uma métrica abstrata aqui — ele determina diretamente que escala de modelos pode ser construída, quantos experimentos podem ser executados e quão rapidamente surgem avanços. É aqui que a precisão de 4 bits se torna transformadora. Ao reduzir a memória, aumentar o throughput aritmético e otimizar a comunicação, o pré-treinamento em 4 bits permite que as fábricas processem significativamente mais tokens na mesma hardware. Com a receita de quantização correta, pode-se obter exatidão equivalente ao FP8/BF16, elevando dramaticamente o throughput — abrindo ciclos de convergência mais rápidos, mais experimentos por unidade de computação e escalando para modelos de fronteira sem precedentes. Para viabilizar o pré-treinamento em 4 bits, desenvolvemos uma receita de pré-treinamento NVFP4 específica que aborda os principais desafios de alcance dinâmico, volatilidade de gradientes e estabilidade numérica em treinamentos de grande escala. O Blackwell foi a primeira arquitetura da NVIDIA a suportar nativamente formatos FP4. O enorme throughput de FP4 em FLOPs para GB200 e GB300 permite um treinamento 4-bit eficiente acelerando operações matriciais de precisão estreita, mantendo o escala e o paralelismo necessários para a convergência de grandes modelos — tornando-os ideais para fábricas de IA de próxima geração que adotam o pré-treinamento baseado em FP4. A Figura 1 mostra o desempenho GEMM medido com Blackwell Ultra, revelando um ganho de 7x em relação ao Hopper. Modelos modernos de LLM dependem fortemente de multiplicação de matrizes, especialmente em suas camadas totalmente conectadas ou lineares, tornando a eficiência dessas operações crucial. Com a precisão FP4, as operações de GEMM se tornam mais rápidas e eficientes, fazendo com que todo o processo de pré-treinamento — desde a propagação direta até as atualizações de gradiente — seja executado com muito mais rapidez, reduzindo o tempo de treinamento e permitindo desenvolvimento de modelos em maior escala. Para viabilizar o treinamento estreito em 4 bits, a receita de pré-treinamento NVFP4 utiliza várias técnicas-chave escolhidas por seu desempenho e precisão. Para que formatos de precisão estreita sejam práticos em pré-treinamento de grande escala, eles devem garantir precisão do modelo e convergência estável. Para avaliar a viabilidade da precisão de 4 bits em treinamento de grande escala, experimentos foram conduzidos com FP8 e NVFP4 em um modelo de 12 bilhões de parâmetros baseado em uma arquitetura híbrida Mamba-Transformer (12B Hybrid Mamba-Transformer) — semelhante ao NVIDIA Nemotron Nano 2. Esse modelo foi treinado com um conjunto massivo de 10 trilhões de tokens usando uma abordagem de dados em fases, mudando para uma mistura de dados diferente na segunda fase de treinamento em 70% e na terceira fase em 90% durante o pré-treinamento. Uma versão do modelo 12B Hybrid Mamba-Transformer foi inicialmente treinada com precisão de 8 bits — FP8, que já mostrou em estudos anteriores se aproximar da precisão de 16 bits, servindo como base para comparação. Em seguida, treinamos com sucesso o mesmo modelo 12B do zero usando NVFP4, demonstrando que esse novo formato de baixa precisão pode suportar pré-treinamento completo em escala de trilhões de tokens. A execução com NVFP4 apresentou convergência estável, sem instabilidades de treinamento ou divergência que costumam assolar treinamentos de precisão ultrabaixa. A Figura 3 mostra que o gráfico de perda de validação do NVFP4 se aproxima dos gráficos de perda do baser de alta precisão (FP8) ao longo de toda a duração do treinamento. As técnicas de quantização descritas acima asseguram que, mesmo com redução agressiva de bits, a dinâmica de pré-treinamento em 4 bits se assemelha às de execuções de maior precisão. Em seguida, pegamos o modelo 12B Hybrid Mamba-Transformer pré-treinado com NVFP4 e o comparamos com o baseline FP8 em várias tarefas downstream e domínios de inteligência. A Figura 4 ilustra que, em todos os domínios, o NVFP4 corresponde ao desempenho do FP8, destacando sua eficácia. Essa constatação reforça a hipótese inicial: o NVFP4 é uma escolha robusta para pré-treinamento de LLMs mesmo em escala de trilhões de tokens — destacando seu potencial para treinamento eficiente de modelos de fronteira em larga escala. O NVFP4 está redefinindo o cenário do treinamento de IA — estabelecendo um novo marco para velocidade, eficiência e inovação orientada. Ao permitir o pré-treinamento em 4 bits, o NVFP4 capacita fábricas de IA a escalar com mais rapidez e sustentabilidade, abrindo o caminho para a próxima era da IA generativa. Como tecnologia dinâmica e em evolução, o NVFP4 continua a desbloquear novas oportunidades para equipes que constroem modelos de fronteira, conduzindo avanços em IA energeticamente eficiente e de alto desempenho. Com o avanço na eficiência computacional, o pré-treinamento em 4 bits abre portas para arquiteturas mais avançadas, treinamentos maiores e significativamente mais tokens — impulsionando o futuro de sistemas inteligentes.
Principais recursos
- Receita de pré-treinamento NVFP4 em 4 bits, endereçando alcance dinâmico, volatilidade de gradientes e estabilidade numérica em treinamentos de grande escala.
- Arquitetura Blackwell Ultra com suporte nativo a formatos FP4, proporcionando alto throughput de FLOPs em FP4 para GB200 e GB300, acelerando operações matriciais de precisão estreita.
- Desempenho GEMM medido com Blackwell Ultra mostra ganho de 7x em relação ao Hopper, accelerando o pré-treinamento como um todo.
- Reduções de memória e aumento de throughput possibilitam processar significativamente mais tokens no mesmo hardware, suportando treinamento em escala de trilhões de tokens.
- Demonstração de estabilidade e convergência durante o pré-treinamento em 4 bits em um modelo 12B Hybrid Mamba-Transformer treinado com 10 trilhões de tokens, usando blended data em fases.
- Comparação de baseline com FP8 mostra trajetórias de perda de validação semelhantes e desempenho em tarefas downstream entre as duas abordagens.
- Colaborações com players importantes (AWS, Cohere, Google Cloud, Kimi AI, Microsoft AI, Mistral, OpenAI, Perplexity, Reflection, Runway) para explorar o NVFP4 em ambientes reais.
- A precisão em 4 bits reduz a memória e aumenta o throughput aritmético mantendo exatidão produzível em contextos de pré-treinamento.
Casos de uso comuns
- Pré-treinamento de grandes modelos de linguagem em escala (regime de trilhões de tokens) para melhorar throughput e eficiência de infraestrutura.
- Fábricas de IA que buscam maximizar tokens processados por unidade de computação mantendo a estabilidade e a exatidão do treinamento.
- Pesquisa e desenvolvimento de arquiteturas de modelos de fronteira que exigem pipelines de pré-treinamento eficientes e escaláveis.
Configuração & instalação
Não especificado na fonte fornecida. Comandos de configuração e instalação não são descritos no excerto do NVIDIA Dev Blog.
# Configuração e instalação não fornecidas na fonte
Quick start
Não fornecido na fonte. Não há um exemplo mínimo executável especificado.
# Quick start não fornecido na fonte
Prós e contras
- Prós:
- Reduções significativas de memória e aumentos de throughput aritmético permitem maior throughput de tokens no pré-treinamento.
- Treinamento em 4 bits pode alcançar convergência estável similar ao baseline FP8 em várias tarefas downstream.
- Ganho de 7x em GEMM com Blackwell Ultra em relação ao Hopper, acelerando o treinamento como um todo.
- Mantém exatidão de produção enquanto opera em 4 bits.
- Permite treinamento em escala de trilhões de tokens com receitas específicas de 4 bits e estratégias de blended data.
- Colaborações ativas indicam validação e interesse da indústria.
- Contras:
- O treinamento em 4 bits ainda é uma área de pesquisa e requer técnicas especializadas.
- A validação apresentada é em um modelo de 12B com arquitetura e dataset específicos; a generalização para todos os modelos não é afirmada.
- Os benefícios de inferência do NVFP4 existem, mas o foco atual é no pré-treinamento; implicações de implantação mais amplas estão em estudo.
Alternativas (comparações breves)
| Opção | Foco | Desempenho vs. exatidão | Observações |---|---|---|---| | NVFP4 (pré-treinamento em 4 bits) | Pré-treinamento em 4 bits com exatidão similar ao FP16 | Alto throughput; iguala FP8 em tarefas downstream | Em fase de pesquisa; exige receitas especializadas |FP8 (baseline) | Precisão de 8 bits | Menor memória que FP16, maior que 4 bits; baseline para comparação | Baseline FP8 para comparação de convergência |BF16 / FP16 (referência de pré-treinamento) | Maior precisão; baselines conhecidos | Mais estáveis, porém com maior uso de memória | Não é o foco principal do NVFP4; mencionado apenas para comparação de estabilidade |
Pricing ou Licença
Não especificado na fonte.
Referências
More resources
CUDA Toolkit 13.0 para Jetson Thor: Ecossistema Unificado de Arm e Mais
Kit de ferramentas CUDA unificado para Arm no Jetson Thor com coerência total de memória, compartilhamento de GPU entre processos, interoperabilidade OpenRM/dmabuf, suporte NUMA e melhorias de ferramentas para embarcados e servidores.
Reduzir Custos de Implantação de Modelos Mantendo Desempenho com Swap de Memória de GPU
Utilize o swap de memória da GPU (hot-swapping de modelos) para compartilhar GPUs entre múltiplos LLMs, reduzir custos de ociosidade e melhorar o autoscaling mantendo os SLAs.
Aprimorando a auto-tunagem de GEMM com nvMatmulHeuristics no CUTLASS 4.2
Apresenta nvMatmulHeuristics para escolher rapidamente um conjunto pequeno de configurações de kernels GEMM com alto potencial para o CUTLASS 4.2, reduzindo drasticamente o tempo de tuning enquanto se aproxima do desempenho da busca exaustiva.
Fine-Tuning gpt-oss para Precisão e Desempenho com Treinamento de Quantização (QAT)
Guia de fine-tuning do gpt-oss com SFT + QAT para recuperar a precisão em FP4 mantendo a eficiência, incluindo upcasting para BF16, MXFP4, NVFP4 e implantação com TensorRT-LLM.
Como Modelos de Linguagem Pequenos são a Chave para IA Agentica Escalável
Explora como modelos de linguagem pequenos permitem IA agentica mais barata, flexível e escalável, ao lado de LLMs, com NVIDIA NeMo e Nemotron Nano 2.
Guia de Início com NVIDIA Isaac para Saúde: Fluxo de Telesurgery
Fluxo de telesurgery modular e pronto para produção do NVIDIA Isaac for Healthcare, unificando simulação e implantação clínica em uma arquitetura de baixo atraso com três máquinas. Abrange streaming de vídeo/sensores, controle de robô, haptics e simulação.