NVFP4 Treina com Precisão de 16 Bits e a Velocidade de 4 Bits para Pré-treinamento em Grande Escala
Sources: https://developer.nvidia.com/blog/nvfp4-trains-with-precision-of-16-bit-and-speed-and-efficiency-of-4-bit, https://developer.nvidia.com/blog/nvfp4-trains-with-precision-of-16-bit-and-speed-and-efficiency-of-4-bit/, NVIDIA Dev Blog
TL;DR
- NVFP4 é um formato de 4 bits desenhado para oferecer latência, throughput e eficiência excepcionais na inferência, mantendo precisão de nível de produção; a NVIDIA estende isso para pré-treinamento.
- Em uma execução de pré-treinamento com 12B Hybrid Mamba-Transformer em um conjunto de dados de 10 trilhões de tokens, o NVFP4 mostrou convergência estável e desempenho de downstream próximo ao FP8.
- O desempenho GEMM em Blackwell Ultra mostra ganho de até 7x em relação à geração Hopper ao usar FP4, refletindo ganhos de memória, throughput e eficiência computacional.
- A iniciativa traz uma receita dedicada de pré-treinamento NVFP4 para enfrentar variação de alcance dinâmico, volatilidade de gradiente e estabilidade numérica; o treinamento ainda está na fase de pesquisa, com colaborações ativas de grandes organizações de IA.
Contexto e background
O cenário de IA tem apresentado crescimento exponencial de cargas de trabalho, não apenas na implementação de LLMs, mas também na escala de pré-treinamento e pós-treinamento de modelos de base. À medida que organizações expandem a infraestrutura de computação para treinar e implantar modelos com bilhões de parâmetros, a capacidade de sustentar um alto throughput de tokens torna-se crucial. Progresso hoje é cada vez mais definido por quantos tokens uma fábrica de IA consegue processar para desbloquear novas capacidades. Formatos de dados otimizados para IA surgem como uma inovação-chave nessa direção. A NVFP4 introduziu um formato de 4 bits projetado para oferecer latência de inferência, throughput e eficiência excepcionais — mantendo acurácia de nível de produção. Agora, a tecnologia é estendida ao pré-treinamento, marcando um avanço importante no desenvolvimento de LLMs. Utilizar NVFP4 no pré-treinamento oferece melhorias significativas na escala de treinamento de modelos grandes e na eficiência da infraestrutura. Não se trata apenas de uma otimização incremental; é uma mudança fundamental em como modelos grandes podem ser treinados em larga escala. Em uma era de “fábricas de IA”, onde o compute é o motor do progresso, a precisão se torna um diferencial estratégico. O treino com 4 bits ainda está na fase de pesquisa, explorando e validando o potencial da precisão reduzida em larga escala. Envios ativos e colaborações continuam com organizações como Amazon Web Services, Cohere, Google Cloud, Kimi AI, Microsoft AI, Mistral, OpenAI, Perplexity, Reflection e Runway. A quantização em 4 bits envolve reduzir a precisão de pesos e ativações para apenas 4 bits, muito abaixo do usual 16 ou 32 bits em virgaf ponto. Treinar com 4 bits é desafiador porque gradientes e atualizações devem ser manipulados com cuidado para preservar a acurácia ao aumentar a velocidade de treino. Técnicas especializadas são necessárias para manter a efetividade ao mapear tensores de alta precisão para um conjunto muito menor de valores quantizados. Nos últimos anos, as cargas de IA cresceram não apenas na implementação de LLMs, mas também na escala de pré-treinamento e pós-treinamento de modelos-base. Conforme organizações ampliam a infraestrutura de compute para treinar e implantar modelos com bilhões de parâmetros, o progresso é cada vez mais definido por quanto throughput de tokens uma fábrica de IA pode sustentar. A inferência já passou por várias ondas de inovação, desde FP32 e FP16 até FP8 e, mais recentemente, o NVFP4 para inferência. Embora métodos como quantização pós-treinamento (PTQ) tenham mostrado que o NVFP4 aumenta o throughput de inferência mantendo a acurácia, o desafio permanece no pré-treinamento, onde modelos de base ainda dependem de BF16 ou FP8 para estabilidade e convergência. O treinamento consome a maior parte do compute, energia e tempo. Orçamentos de energia são fixos e ciclos de GPU são escassos, exigindo que cada bit, token e época sejam considerados. O throughput não é apenas uma métrica abstrata — ele determina o tamanho dos modelos que podem ser construídos, quantas experiências podem ser executadas e a rapidez com que avanços chegam. É nesse contexto que a precisão de 4 bits se mostra transformadora. Ao reduzir a memória, aumentar o throughput aritmético e otimizar a comunicação, o pré-treinamento em 4 bits permite que as fábricas processem significativamente mais tokens com o mesmo hardware. Com a receita de quantização certa, pode-se manter a acurácia em par com FP8/BF16, ao mesmo tempo em que o throughput cresce dramaticamente — abrindo ciclos de convergência mais rápidos, mais experimentos por unidade de compute e escalada para modelos fronteira sem precedentes. Para viabilizar o pré-treinamento em 4 bits, a NVIDIA desenvolveu uma receita de pré-treinamento NVFP4 específica que aborda os desafios centrais de alcance dinâmico, volatilidade de gradientes e estabilidade numérica em treinamento de grande escala. O Blackwell foi a primeira arquitetura da NVIDIA a oferecer suporte nativamente a formatos FP4. O elevado throughput de FLOPs em FP4 nos modelos GB200 e GB300 permite treinar com eficiência em 4 bits acelerando operações de matriz de precisão estreita, mantendo o nível de paralelismo necessário para a convergência de modelos em larga escala — tornando-os ideais para fábricas de IA de próxima geração que utilizam pré-treinamento baseado em FP4. Modelos modernos de LLM dependem fortemente de multiplicação de matrizes em camadas totalmente conectadas, tornando a eficiência dessas operações crítica. Com a precisão FP4 permitindo uma execução mais rápida e eficiente dessas operações, o ganho de velocidade da GEMM reduz o tempo total de pré-treinamento, acelerando a convergência e permitindo desenvolvimentos mais rápidos de modelos maiores. Para viabilizar o treino eficiente em formatos estreitos, a receita de pré-treinamento NVFP4 utiliza várias técnicas-chave escolhidas com base em desempenho e acurácia. Em experimentos que compararam FP8 e NVFP4 em um modelo de 12 bilhões de parâmetros com arquitetura Mamba-Transformer (12B Hybrid Mamba-Transformer), treinado com um conjunto de dados massivo de 10 trilhões de tokens usando uma abordagem de dados em fases com blend de conjuntos de dados, a versão inicial com FP8 serviu como baseline. Em seguida, treinamos esse mesmo modelo de 12B do zero usando NVFP4, demonstrando que o novo formato de 4 bits pode suportar pré-treinamento completo em escala de trilhões de tokens. A corrida com NVFP4 apresentou convergência estável, sem instabilidades de treinamento típicas de training ultrabaixo em precisão, e a curva de perda de validação de NVFP4 acompanhou de perto a do FP8 ao longo de todo o treinamento. Além disso, ao comparar o NVFP4 treinado com NVFP4 e o FP8 baseline em várias tarefas downstream, verificou-se que o NVFP4 iguala o FP8 em desempenho, fortalecendo a hipótese de que 4 bits podem sustentar pré-treinamento de LLMs mesmo em escalas de trilhões de tokens. A visão da NVIDIA é que a NVFP4 está redefinindo o cenário de treinamento de IA — estabelecendo um novo marco em velocidade, eficiência e inovação direcionada. Ao permitir o pré-treinamento em 4 bits, a NVFP4 capacita fábricas de IA a escalar de forma mais rápida e sustentável, abrindo caminho para a próxima era da IA generativa. Como tecnologia dinâmica e evolutiva, a NVFP4 continua a desbloquear oportunidades para equipes que constroem modelos fronteira, promovendo IA energeticamente eficiente e de alto desempenho. Com avanços na eficiência computacional, o pré-treinamento em 4 bits abre portas para arquiteturas mais avançadas, treinamentos maiores e significativamente mais tokens — alimentando o futuro de sistemas inteligentes.
O que há de novo
A NVIDIA apresentou uma receita de pré-treinamento NVFP4 dedicada, projetada para tornar o pré-treinamento em 4 bits viável para treinamento de modelos em grande escala. Em um setup 12B Hybrid Mamba-Transformer com um conjunto de dados de 10 trilhões de tokens, pesquisadores exploraram uma estratégia de dados em fases com mistura de dados que muda ao longo do treinamento, começando com FP8 como baseline e avançando para NVFP4 durante o treino completo. O mesmo modelo 12B foi treinado do zero com NVFP4, obtendo convergência estável e perdas de validação que acompanham FP8 durante o treinamento. Medidas de performance em hardware dedicado mostram ganhos expressivos de throughput para multiplicação de matrizes; Blackwell Ultra revelou um ganho de cerca de 7x em GEMM ao usar cálculos FP4, impulsionado pela redução de memória, maior throughput aritmético e padrões de interconexão otimizados. O throughput FP4 em Blackwell é particularmente relevante para arquiteturas da classe GB200 e GB300, onde as FLOPs FP4 podem desbloquear novos patamares de eficiência para modelos grandes. O trabalho NVFP4 está sendo seguido em colaboração com organizações como Amazon Web Services, Cohere, Google Cloud, Kimi AI, Microsoft AI, Mistral, OpenAI, Perplexity, Reflection e Runway, demonstrando interesse amplo da indústria em pré-treinamento em 4 bits.
Por que isso importa (impacto para desenvolvedores/empresas)
Para equipes de desenvolvimento e empresas, o avanço NVFP4 pode representar um ponto de inflexão na forma como modelos de base são dimensionados. Ao reduzir o consumo de memória e aumentar o throughput aritmético, o pré-treinamento em 4 bits possibilita experimentos em maior escala e ciclos de iteração mais rápidos sob orçamentos de energia fixos e ciclos de GPU limitados. A capacidade de processar mais tokens com o mesmo hardware pode se traduzir em tempos menores de treinamento para modelos fronteira, acelerando a exploração de novas arquiteturas. A demonstração de que o NVFP4 pode chegar a igualar o FP8 em desempenho mesmo durante o pré-treinamento sugere que 4 bits pode se tornar uma rota viável para equipes que buscam maior eficiência sem sacrificar a qualidade do modelo. Se validada em escala e para diferentes famílias de modelos, a abordagem NVFP4 pode influenciar planejamento de infraestrutura, modelos de custo e desenho de fábricas de IA futuras que priorizam velocidade e eficiência energética.
Detalhes técnicos ou Implementação
A receita de pré-treinamento NVFP4 foca nos gargalos centrais do treino de precisão estreita: alcance dinâmico, volatilidade de gradientes e estabilidade numérica em treinamento de grande escala. O Blackwell Ultra oferece a base de hardware com suporte nativo a FP4 e throughput de FLOPs FP4 em GB200 e GB300, permitindo operações de matriz eficientes em 4 bits mantendo o nível de paralelismo necessário para a convergência em modelos muito grandes. Em experimentos, um modelo 12B Hybrid Mamba-Transformer foi treinado com 10 trilhões de tokens usando uma abordagem de dados em fases com mistura de dados, começando com FP8 e migrando para NVFP4 durante o treino completo. O resultado NVFP4 mostrou convergência estável e perdas de validação que acompanharam FP8 ao longo de todo o treinamento. Em termos de desempenho, as avaliações downstream em várias domínios indicaram que NVFP4 corresponde ao FP8, fortalecendo a viabilidade do pré-treinamento em 4 bits para scale-up de modelos de fronteira. Um ponto-chave é que o treino em 4 bits se torna prático quando a receita de quantização é cuidadosamente desenhada para equilibrar alcance dinâmico, ruído de gradientes e estabilidade numérica. O trabalho NVFP4 destaca que não basta reduzir bits; é preciso manter a qualidade de treinamento em escalas de trilhões de tokens. O esforço também reflete um interesse industrial amplo, evidenciado pelas colaborações com AWS, Cohere, Google Cloud, Kimi AI, Microsoft AI, Mistral, OpenAI, Perplexity, Reflection e Runway, apontando para possíveis impactos práticos em fluxos de trabalho de pré-treinamento.
Conclusões e próximos passos
As primeiras evidências indicam que o NVFP4 pode permitir treinamento mais rápido de grandes modelos sem comprometer a qualidade de desempenho, abrindo espaço para explorar arquiteturas mais avançadas com maior eficiência energética. Dado o estágio de pesquisa, resultados adicionais, validações em mais famílias de modelos e adoção prática dependerão de validações contínuas e de demonstrações adicionais em ambientes de produção. A curiosidade da indústria e o envolvimento de grandes players sugerem uma trajetória promissora para a adoção de pré-treinamento em 4 bits como parte de pipelines de treinamento de IA em larga escala.
Takeaways
- NVFP4 amplia a 4-bit precision do domínio de inferência para o pré-treinamento, visando manter acurácia equivalente a FP8/BF16 com ganhos de throughput e menores exigências de memória.
- Em um experimento com 12B, NVFP4 apresentou convergência estável e desempenho de downstream compatível com FP8 em um conjunto de dados de 10 trilhões de tokens.
- Medições em Blackwell Ultra mostraram ganhos de GEMM de até ~7x em relação ao Hopper ao usar FP4, impulsionados por menor exigência de memória e maior throughput aritmético.
- A receita de pré-treinamento NVFP4 aborda dinamismo dinâmico, volatilidade de gradientes e estabilidade numérica, mantendo a pesquisa ativa e com colaborações na indústria.
- Os resultados indicam que modelos 12B treinados com NVFP4 podem igualar o FP8 em várias tarefas downstream, sugerindo potencial para fluxos de trabalho de pré-treinamento eficientes em larga escala.
FAQ
- Q: O que é NVFP4 de forma simples? A: NVFP4 é um formato de 4 bits desenhado para acelerar o treinamento e reduzir o uso de memória em modelos grandes, mantendo acurácia próxima a baselines de maior precisão.
- Q: Como o NVFP4 se compara ao FP8 no pré-treinamento? A: Em um conjunto de experimentos com 12B, o NVFP4 manteve a perda de validação estável e igualou o FP8 em desempenho downstream.
- Q: Qual hardware demonstra os ganhos do NVFP4? A: Os ganhos foram observados no Blackwell Ultra, com ganho de GEMM de até ~7x em relação ao Hopper ao usar FP4.
- Q: o NVFP4 está pronto para produção? A: O treinamento com NVFP4 ainda é descrito como fase de pesquisa, com validações em andamento e colaborações ativas.
- Q: Quem está colaborando com o NVFP4? A: AWS, Cohere, Google Cloud, Kimi AI, Microsoft AI, Mistral, OpenAI, Perplexity, Reflection e Runway.
Referências
More news
NVIDIA HGX B200 reduz a Intensidade de Emissões de Carbono Incorporado
O HGX B200 da NVIDIA reduz 24% da intensidade de carbono incorporado em relação ao HGX H100, ao mesmo tempo em que aumenta o desempenho de IA e a eficiência energética. Esta análise resume os dados de PCF e as novidades de hardware.
Prever Eventos Climáticos Extremos em Minutos sem Supercomputador com Huge Ensembles (HENS)
NVIDIA e o Lawrence Berkeley National Laboratory apresentam Huge Ensembles (HENS), uma ferramenta de IA de código aberto que prevê eventos climáticos raros e de alto impacto usando 27.000 anos de dados, com opções de código aberto ou prontos para uso.
Playbook dos Grandmasters do Kaggle: 7 Técnicas de Modelagem Testadas para Dados Tabulares
Análise detalhada de sete técnicas testadas por Grandmasters do Kaggle para resolver grandes conjuntos de dados tabulares com aceleração por GPU, desde baselines diversificados até ensemble avançado e pseudo-rotulagem.
Como reduzir gargalos do KV Cache com NVIDIA Dynamo
O Dynamo da NVIDIA transfere o KV Cache da memória da GPU para armazenamento de custo mais baixo, permitindo janelas de contexto maiores, maior concorrência e menor custo de inferência em grandes modelos.
NVIDIA RAPIDS 25.08 Adiciona Novo Profiler para cuML, Melhorias no Motor GPU Polars e Suporte Ampliado de Algoritmos
RAPIDS 25.08 traz profiladores function-level e line-level para cuml.accel, executor streaming padrão no motor GPU Polars, suporte ampliado de tipos e strings, novo Spectral Embedding no cuML e acelerações com zero código para mais algoritmos.
Decodificação Especulativa para Reduzir a Latência na Inferência de IA: EAGLE-3, MTP e Abordagens Draft-Target
Exploração detalhada de decodificação especulativa para inferência de IA, incluindo métodos draft-target e EAGLE-3, como reduzem latência e como implantar em GPUs NVIDIA com TensorRT.