NVFP4 Entraîne en précision 16 bits avec la vitesse et l'efficacité du 4 bits pour le pré-entraînement à grande échelle
Sources: https://developer.nvidia.com/blog/nvfp4-trains-with-precision-of-16-bit-and-speed-and-efficiency-of-4-bit, https://developer.nvidia.com/blog/nvfp4-trains-with-precision-of-16-bit-and-speed-and-efficiency-of-4-bit/, NVIDIA Dev Blog
TL;DR
- NVFP4 est un format en 4 bits conçu pour offrir une latence, un débit et une efficacité exceptionnels en inférence tout en conservant une précision de production; NVIDIA étend cette approche au pré-entraînement.
- Dans une exécution de pré-entraînement sur 12B Hybrid Mamba-Transformer sur un jeu de données de 10 trillions de tokens, NVFP4 a démontré une convergence stable et une précision équivalente au FP8 sur les tâches en aval.
- Les performances GEMM mesurées sur Blackwell Ultra montrent une accélération allant jusqu’à 7x par rapport à Hopper lors de l’utilisation du FP4, reflétant des gains de mémoire, de débit et d’efficacité de calcul.
- Le projet introduit une recette de pré-entraînement NVFP4 dédiée pour aborder l’écartement dynamique, la volatilité des gradients et la stabilité numérique; l’entraînement est encore en phase de recherche avec des collaborations actives parmi de grandes organisations IA.
Contexte et antécédents
Les charges de travail d’IA ont connu une croissance exponentielle, non seulement dans le déploiement des grands modèles de langage (LLMs) mais aussi dans l’ampleur du pré-entraînement et du post-entraînement de modèles de fond. À mesure que les organisations étendent leurs infrastructures de calcul pour former et déployer des modèles multi-milliards de paramètres, la capacité à maintenir un débit élevé de tokens devient critique. Le progrès se définit de plus en plus par le nombre de tokens qu’une usine IA peut faire passer, afin d’exploiter de nouvelles capacités. Des formats de données optimisés pour IA ont émergé comme une innovation clé dans cet effort. NVFP4 introduit un format en 4 bits conçu pour offrir une faible latence et un débit élevé en inférence tout en conservant une précision adaptée à la production. À présent, NVIDIA étend cette innovation au pré-entraînement, marquant un pas important dans le développement des LLMs. Utiliser NVFP4 pour le pré-entraînement ouvre d’importantes améliorations de l’échelle d’entraînement et de l’efficacité des infrastructures. Il ne s’agit pas d’une amélioration incrémentale: c’est une approche fondatrice pour entraîner des modèles de grande ampleur à l’échelle. Dans l’ère des « usines d’IA », où le calcul est le moteur du progrès, la précision n’est plus un détail technique mais un avantage stratégique. Le pré-entraînement avec 4 bits reste en phase de recherche, explorant et validant le potentiel de la précision faible pour les entraînements à grande échelle. Des engagements actifs et une collaboration continue autour de NVFP4 ont lieu avec des organisations de premier plan telles qu’Amazon Web Services, Cohere, Google Cloud, Kimi AI, Microsoft AI, Mistral, OpenAI, Perplexity, Reflection et Runway. La quantification en 4 bits consiste à réduire la précision des poids et des activations à seulement 4 bits, bien en dessous des formats habituels en virgule flottante de 16 ou 32 bits. Le pré-entraînement en 4 bits est difficile car les gradients et les mises à jour doivent être gérés avec soin pour préserver l’exactitude tout en améliorant la vitesse globale. Des techniques et recettes spécialisées sont nécessaires pour maintenir l’efficacité lors de la cartographie de tenseurs haute précision vers un ensemble réduit de valeurs quantisées. Au cours des dernières années, les charges de travail IA ont connu une croissance exponentielle non seulement dans le déploiement des LLMs mais aussi dans l’ampleur du pré-entraînement et du post-entraînement de modèles fondation. À mesure que les organisations élargissent leurs infrastructures de calcul pour gérer l’entraînement et le déploiement de modèles multi-milliards de paramètres, le progrès est défini par le débit token qu’une usine IA peut soutenir pour libérer de nouvelles capacités. L’inférence a déjà subi plusieurs vagues d’innovation, passant du FP32/FP16 au FP8 et plus récemment à la version NVFP4 pour l’inférence IA. Bien que des méthodes comme la quantification post-entraînement (PTQ) aient montré que NVFP4 peut multiplier le débit d’inférence tout en conservant l’exactitude, le défi majeur se situe en amont dans le pré-entraînement — où les modèles de fondation s’appuient encore sur BF16 ou FP8 pour la stabilité et la convergence. L’entraînement monopolise la majeure partie du compute, de l’énergie et du temps. Les budgets énergie sont fixes et les cycles GPU sont rares; chaque bit, token et époque compte. Le débit ne reste pas une métrique abstraite — il détermine l’échelle des modèles, le nombre d’expériences et la rapidité des percées. C’est ici que la précision en 4 bits devient transformative. En réduisant la mémoire, en augmentant le throughput arithmétique et en optimisant les communications, le pré-entraînement en 4 bits permet de traiter nettement plus de tokens sur le même matériel. Avec la bonne recette de quantification, on peut atteindre une précision équivalente à FP8/BF16 tout en augmentant considérablement le throughput — accélérant les cycles de convergence, permettant plus d’expériences par unité de calcul et permettant une montée en échelle vers des modèles de frontière sans précédent. Pour permettre un pré-entraînement à 4 bits, NVIDIA a développé une recette de pré-entraînement NVFP4 qui s’attaque aux défis clefs de la plage dynamique, de la volatilité des gradients et de la stabilité numérique lors de l’entraînement à grande échelle. Blackwell fut la première architecture NVIDIA à supporter nativement les formats FP4. Le flux massif de FLOPs FP4 sur GB200 et GB300 permet un entraînement efficace en 4 bits en accélérant les opérations de matrices étroites tout en conservant l’échelle et le parallélisme nécessaires à la convergence des grands modèles — les rendant idéaux pour les usines IA de prochaine génération déployant un pré-entraînement basé sur FP4. Les modèles LLM modernes reposent fortement sur la multiplication de matrices dans leurs couches entièrement connectées, rendant l’efficacité de ces opérations cruciale. Avec la précision FP4 qui permet une exécution plus rapide et plus efficace de ces opérations, l’accélération GEMM observée se traduit par un pré-entraînement plus rapide et une progression plus rapide vers des modèles plus grands. Pour rendre le pré-entraînement efficace en 4 bits viable, la recette NVFP4 address la dynamique dynamique, la volatilité des gradients et la stabilité numérique. Le Blackwell Ultra fournit une base matérielle avec support FP4 natif et throughput FP4 sur GB200 et GB300, permettant des opérations efficaces sur matrices en 4 bits tout en préservant le niveau de parallélisme nécessaire pour la convergence de grands modèles. Dans les expériences, un modèle 12B Hybrid Mamba-Transformer a été entraîné sur 10 trillions de tokens en utilisant une approche en phases avec mélange des jeux de données, débutant avec FP8 comme baseline et évoluant vers NVFP4 pour l’entraînement complet. Le résultat avec NVFP4 a démontré une convergence stable et des pertes de validation qui suivent FP8 sur l’ensemble du parcours d’entraînement. Les évaluations downstream à travers plusieurs domaines ont montré que NVFP4 égalait FP8, renforçant la viabilité du pré-entraînement en 4 bits pour des modèles de frontière à grande échelle. NVFP4 redéfinit le paysage du entraînement IA — établissant une nouvelle référence pour la vitesse, l’efficacité et l’innovation orientée. En autorisant le pré-entraînement en 4 bits, NVFP4 donne les moyens aux usines IA d’accroître l’échelle de manière plus rapide et durable, ouvrant la voie à une prochaine ère d’IA générative. En tant que technologie dynamique et évolutive, NVFP4 continue d’ouvrir des opportunités pour les équipes construisant des modèles frontière, favorisant une IA plus économe en énergie et haute performance. Avec sa percée en efficacité de calcul, le pré-entraînement en 4 bits ouvre la porte à des architectures plus avancées, des entraînements plus importants et significativement plus de tokens — alimentant l’avenir des systèmes intelligents.
Ce qui est nouveau
NVIDIA a introduit une recette de pré-entraînement NVFP4 dédiée, conçue pour rendre le pré-entraînement en 4 bits praticable pour l’entraînement de modèles à grande échelle. Dans un setup 12B Hybrid Mamba-Transformer utilisant un jeu de données de 10 trillions de tokens, les chercheurs ont exploré une stratégie de données en phases avec mélange de jeux de données qui évolue au cours de l’entraînement, en commençant par FP8 comme baseline puis en passant à NVFP4 pour le pré-entraînement complet. Le même modèle 12B a été entraîné à partir de zéro avec NVFP4, obtenant une convergence stabile et des pertes de validation qui suivent FP8 durant l’entraînement. Les mesures hardware montrent des gains de throughput significatifs pour les multiplications de matrices; Blackwell Ultra a démontré environ 7x d’accélération GEMM en utilisant FP4, propulsés par une réduction mémoire et des motifs d’interconnexion optimisés. Le throughput FP4 sur Blackwell est particulièrement pertinent pour les architectures GB200 et GB300, où FP4 peut libérer de nouveaux niveaux d’efficacité pour les grands modèles. Le travail NVFP4 est suivi en collaboration avec Amazon Web Services, Cohere, Google Cloud, Kimi AI, Microsoft AI, Mistral, OpenAI, Perplexity, Reflection et Runway, démontrant l’intérêt industriel large pour le pré-entraînement en 4 bits.
Pourquoi cela compte (impact pour les développeurs/entreprises)
Pour les développeurs et les entreprises, l’effort NVFP4 représente une potentialité d’inflexion dans la manière dont les modèles de fondation sont dimensionnés. En réduisant l’utilisation mémoire et en augmentant le throughput arithmétique, le pré-entraînement en 4 bits permet des expériences à plus grande échelle et des cycles d’itération plus rapides dans des budgets énergétiques fixes et des cycles GPU limités. La capacité de traiter plus de tokens avec le même matériel peut se traduire par des temps de formation plus courts pour des modèles frontière, accélérant l’exploration d’architectures et de régimes d’entraînement innovants. La démonstration que NVFP4 peut égaler FP8 en performance durant le pré-entraînement suggère que le 4 bits peut devenir une option viable pour les équipes cherchant à optimiser l’efficacité sans compromis sur la qualité du modèle. Si validé à grande échelle et pour d’autres familles de modèles, l’approche NVFP4 pourrait influencer la planification des infrastructures, les modèles de coût et la conception des futures usines IA orientées vers la vitesse et l’efficacité énergétique.
Détails techniques ou Mise en œuvre
La recette de pré-entraînement NVFP4 cible les goulets d’étranglement centraux du training en précision étroite: plage dynamique, volatilité des gradients et stabilité numérique dans un entraînement à grande échelle. Blackwell Ultra offre une base matérielle avec support FP4 natif et throughput FP4 sur GB200 et GB300, permettant des opérations efficaces sur matrices en 4 bits tout en conservant le niveau de parallélisme nécessaire pour la convergence de grands modèles. Dans les expériences, un modèle 12B Hybrid Mamba-Transformer a été entraîné sur 10 trillions de tokens avec une approche en phases et mélange de données, débutant par FP8 et migrant vers NVFP4 pour l’entraînement complet. Le résultat NVFP4 a montré une convergence stable et des pertes de validation qui suivent FP8 pendant tout le parcours d’entraînement. En termes de performance, les évaluations downstream dans divers domaines ont indiqué que NVFP4 égalait FP8, renforçant la faisabilité du pré-entraînement en 4 bits pour des modèles à grande échelle. Un point-clé est que l’entraînement en 4 bits devient viable lorsque la recette de quantification est soigneusement conçue pour équilibrer plage dynamique, bruit de gradient et stabilité numérique. Le travail NVFP4 illustre qu’il ne suffit pas de réduire les bits; il faut préserver la qualité de l’entraînement à des échelles de trillions de tokens. L’effort reflète également un large intérêt industriel, comme en témoignent les collaborations avec AWS, Cohere, Google Cloud, Kimi AI, Microsoft AI, Mistral, OpenAI, Perplexity, Reflection et Runway, indiquant des implications pratiques pour les flux de travail de pré-entraînement.
Conclusions et prochaines étapes
Les premiers éléments suggèrent que le pré-entraînement en 4 bits peut permettre un entraînement plus rapide de grands modèles sans sacrifier la qualité, ouvrant la porte à l’exploration d’architectures plus avancées avec une efficacité énergétique accrue. Étant donné le stade de recherche, des validations supplémentaires et une adoption pratique dépendront de validations continues et démonstrations supplémentaires dans des environnements de production. L’intérêt industriel et l’engagement des grandes entreprises pointent vers une trajectoire prometteuse pour l’adoption du pré-entraînement en 4 bits comme composant potentiel des pipelines d’entraînement IA à grande échelle.
Points clés
- NVFP4 étend la précision 4 bits du domaine d’inférence au pré-entraînement, avec l’objectif de maintenir une précision équivalente au FP8/BF16 tout en augmentant le throughput et en réduisant l’utilisation mémoire.
- Dans une expérimentation sur 12B, NVFP4 a démontré une convergence stable et des performances downstream équivalentes au FP8 sur un jeu de données de 10 trillions de tokens.
- Les mesures sur Blackwell Ultra ont montré des gains GEMM allant jusqu’à ~7x en comparaison avec Hopper, lors de l’utilisation de FP4, grâce à une réduction mémoire et un throughput arithmétique accru.
- La recette de pré-entraînement NVFP4 aborde les défis de plage dynamique, volatilité des gradients et stabilité numérique, tout en restant dans le cadre de la recherche et avec des collaborations industrielles.
- Les résultats suggèrent que le pré-entraînement NVFP4 sur des modèles 12B peut atteindre des performances équivalentes au FP8 dans divers domaines, ouvrant des perspectives pour des workflows d’entraînement efficace à grande échelle.
FAQ
- Q : Qu’est-ce que NVFP4, en termes simples ? A : NVFP4 est un format en 4 bits conçu pour accélérer l’entraînement et réduire la mémoire nécessaire pour les modèles volumineux, tout en préservant une précision comparable à celle des baselines de plus haute précision.
- Q : Comment NVFP4 se compare-t-il au FP8 pendant le pré-entraînement ? A : Dans l’expérience sur 12B, NVFP4 a montré une convergence stable et un ajustement downstream équivalent au FP8.
- Q : Quel matériel montre les gains du NVFP4 ? A : Les gains proviennent de Blackwell Ultra, avec une accélération GEMM d’environ 7x par rapport à Hopper en utilisant FP4.
- Q : NVFP4 est-il prêt pour une utilisation en production ? A : Le pré-entraînement NVFP4 est encore en phase de recherche, avec validations et collaborations en cours.
- Q : Qui collabore sur NVFP4 ? A : AWS, Cohere, Google Cloud, Kimi AI, Microsoft AI, Mistral, OpenAI, Perplexity, Reflection et Runway.
Références
More news
NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé
Le HGX B200 de NVIDIA abaisse l’intensité des émissions de carbone incorporé de 24% par rapport au HGX H100, tout en offrant de meilleures performances IA et une efficacité énergétique accrue. Cet article résume les données PCF et les nouveautés matérielles.
Prévoir les phénomènes météorologiques extrêmes en quelques minutes sans superordinateur : Huge Ensembles (HENS)
NVIDIA et le Lawrence Berkeley National Laboratory présentent Huge Ensembles (HENS), un outil IA open source qui prévoit des événements météorologiques rares et à fort impact sur 27 000 années de données, avec des options open source ou prêtes à l’emploi.
Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo
NVIDIA Dynamo déporte le KV Cache depuis la mémoire GPU vers un stockage économique, permettant des contextes plus longs, une meilleure concurrence et des coûts d’inférence réduits pour les grands modèles et les charges AI génératives.
Le Playbook des Grands Maîtres Kaggle: 7 Techniques de Modélisation pour Données Tabulaires
Analyse approfondie de sept techniques éprouvées par les Grands Maîtres Kaggle pour résoudre rapidement des ensembles de données tabulaires à l’aide d’une accélération GPU, des baselines divers à l’assemblage et à la pseudo-étiquetage.
NVIDIA RAPIDS 25.08 Ajoute un Nouveau Profiler pour cuML, Améliorations du moteur GPU Polars et Support d’Algorithmes Étendu
RAPIDS 25.08 introduit deux profils pour cuml.accel (fonctionnel et ligne), l’exécuteur streaming par défaut du moteur Polars GPU, un support de types et chaînes étendu, Spectral Embedding dans cuML et des accélérations zéro-code pour plusieurs estimateurs.
Décodage spéculatif pour réduire la latence de l’inférence IA : EAGLE-3, MTP et approche Draft-Target
Analyse détaillée du décodage spéculatif pour l’inférence IA, incluant les méthodes draft-target et EAGLE-3, leur réduction de latence et les déploiements via TensorRT.