NVFP4 Entraîne avec une Précision de 16 Bits et une Vitesse et Efficacité de 4 Bits

Aperçu

Les charges de travail IA ont connu une croissance exponentielle — non seulement dans le déploiement des grands modèles de langage (LLMs) mais aussi dans la demande de traitement des tokens lors du pré-entraînement et du post-entraînement. À mesure que les organisations agrandissent l’infrastructure de calcul pour former et déployer des modèles de milliards de paramètres, le débit par token devient critique. Les usines IA se mesurent à la quantité de tokens qu’elles peuvent faire passer pour débloquer de nouvelles capacités. Les formats de données optimisés pour l’IA sont apparus comme une innovation clé dans cet effort. La computation en précision étroite a déjà transformé l’inférence, avec l’introduction de NVFP4, un format 4 bits conçu pour offrir une latence, un débit et une efficacité d’inférence exceptionnels tout en conservant une précision adaptée à la production. NVIDIA étend désormais cette innovation au pré-entraînement, marquant un saut important dans le développement des LLMs. L’utilisation de NVFP4 pour le pré-entraînement ouvre d’importantes améliorations dans l’entraînement de grands LLMs à l’échelle et dans l’efficacité de l’infrastructure. Ce n’est pas une optimisation incrémentale — c’est un changement fondamental dans la manière de former des modèles volumineux à l’échelle. À l’ère des usines d’IA, où le calcul est le moteur du progrès, la précision n’est plus un détail technique — c’est un avantage stratégique. Le pré-entraînement en 4 bits avec NVFP4 redéfinit les limites d’efficacité et d’évolutivité, fixant une nouvelle norme pour le développement de modèles IA haute performance. L’entraînement en 4 bits est encore en phase de recherche, explorant et validant le potentiel de cette précision dans le pré-entraînement de grande échelle. Des engagements actifs et une collaboration continue autour de NVFP4 sont en cours avec des organisations telles que AWS, Cohere, Google Cloud, Kimi AI, Microsoft AI, Mistral, OpenAI, Perplexity, Reflection et Runway. La quantification en 4 bits fait référence au processus de réduction de la précision des poids et des activations à seulement 4 bits — une chute spectaculaire par rapport aux formats en virgule flottante typiques de 16 ou 32 bits. Le pré-entraînement avec 4 bits est difficile car les gradients et les mises à jour doivent être gérés avec précaution pour préserver la précision tout en améliorant la vitesse globale de l’entraînement. Des techniques et recettes spécialisées sont nécessaires pour maintenir l’efficacité lors de la cartographie de tenseurs de haute précision vers un ensemble bien plus petit de valeurs quantifiées. Ces dernières années, les charges IA ont progressé non seulement dans l’inférence mais aussi dans l’échelle du pré-entraînement et du post-entraînement des modèles de base. Alors que les organisations étendent l’infrastructure de calcul pour gérer le pré-entraînement et le déploiement de modèles à plusieurs milliards de paramètres, le progrès se mesure par le nombre de tokens qu’une usine IA peut supporter pour atteindre de nouvelles capacités. L’inférence a déjà connu plusieurs vagues d’innovation, passant du FP32 et FP16 au FP8 et plus récemment au lancement de NVFP4 pour l’inférence IA. Bien que des méthodes comme la quantification post-entraînement (PTQ) aient démontré que NVFP4 peut augmenter le débit d’inférence tout en conservant l’exactitude, le défi restant se situe en amont dans le pré-entraînement — où les modèles de fondation dépendent encore de BF16 ou FP8 pour la stabilité et la convergence. L’entraînement est l’endroit où les usines IA peuvent consacrer le plus de calcul, d’énergie et de temps. Les budgets d’énergie sont fixes et les cycles GPU sont rares, il faut donc tenir compte de chaque bit, token et époque. Le débit n’est pas une métrique abstraite ici — il détermine directement l’échelle des modèles qui peuvent être construits, combien d’expériences peuvent être menées et à quelle vitesse les avancées arrivent. C’est là que la précision en 4 bits devient transformatrice. En réduisant la mémoire, en augmentant le débit arithmétique et en optimisant la communication, le pré-entraînement en 4 bits permet aux usines de pousser bien plus de tokens à travers le même matériel. Avec la bonne recette de quantification, il est possible d’obtenir une précision équivalente au FP8/BF16 tout en augmentant considérablement le débit — permettant des cycles de convergence plus rapides, plus d’expériences par unité de calcul et une scalabilité vers des modèles de frontière sans précédent. Pour permettre le pré-entraînement en 4 bits, nous avons développé une recette de pré-entraînement NVFP4 spécifiques qui traitent les défis centraux de la plage dynamique, de la volatilité des gradients et de la stabilité numérique dans les entraînements à grande échelle. Blackwell a été la première architecture NVIDIA à supporter nativement les formats FP4. Le débit massif en FLOPs FP4 sur GB200 et GB300 permet un entraînement 4 bits efficace en accélérant les opérations matricielles en précision étroite tout en conservant l’échelle et le parallélisme nécessaire à la convergence des grands modèles — les rendant idéaux pour les futures usines IA déployant l’entraînement basé sur FP4. La Figure 1 ci-dessous présente les performances GEMM mesurées avec Blackwell Ultra, révélant une accélération de 7x par rapport à Hopper. Les modèles modernes de LLM reposent fondamentalement sur la multiplication de matrices, notamment dans leurs couches entièrement connectées ou linéaires, ce qui rend l’efficacité de ces opérations cruciale. Avec la précision FP4, l’exécution de ces opérations devient plus rapide et plus efficace, ce qui signifie que l’ensemble du processus de pré-entraînement — de la propagation avant jusqu’aux mises à jour de gradients — s’exécute beaucoup plus rapidement, réduisant le temps de formation et permettant un développement plus rapide à grande échelle. Pour rendre possible le pré-entraînement en 4 bits, la recette NVFP4 utilise plusieurs techniques clés choisies en fonction de leur performance et précision. Pour que les formats de précision étroite soient praticables en pré-entraînement à grande échelle, ils doivent garantir à la fois précision du modèle et convergence stable. Pour évaluer la viabilité de la précision de 4 bits en formation à grande échelle, des expériences ont été menées avec FP8 et NVFP4 sur un modèle de 12 milliards de paramètres basé sur une architecture combinée Mamba-Transformer (12B Hybrid Mamba-Transformer), similaire au NVIDIA Nemotron Nano 2. Ce modèle a été entraîné sur un ensemble massif de 10 trillions de tokens en utilisant une approche de mélange de données en phases, passant à un mélange différent lors de la deuxième phase d’entraînement à 70% et lors de la troisième phase à 90% pendant le pré-entraînement. Une version du modèle 12B Hybrid Mamba-Transformer a d’abord été entraînée avec une précision de 8 bits — FP8, qui a été démontrée dans des études précédentes pour se rapprocher de la précision de 16 bits, et a donc servi de référence pour la comparaison. Nous avons ensuite entraîné avec succès ce même modèle 12B à partir de zéro en utilisant NVFP4, démontrant que ce nouveau format de faible précision peut supporter un pré-entraînement complet à l’échelle du trillion de tokens. L’exécution NVFP4 a montré une convergence stable sans les instabilités ou divergences typiquement associées aux entraînements à précision ultra-faible. La Figure 3 ci-dessous montre que la courbe de perte de validation de NVFP4 correspond étroitement à celle du baseline de haute précision (FP8) sur toute la durée de l’entraînement. Les techniques de quantification décrites ci-dessus garantissent que, même avec une réduction agressive de la largeur des bits, la dynamique du pré-entraînement en 4 bits ressemble à celle des exécutions en précision plus élevée. Nous avons ensuite pris le modèle 12B Hybrid Mamba-Transformer pré-entraîné avec NVFP4 et l’avons comparé au baseline FP8 sur une série de tâches en aval et de domaines d’intelligence. La Figure 4 illustre que, dans l’ensemble des domaines, NVFP4 égalise les performances du FP8, démontrant son efficacité. Cette constatation renforce l’hypothèse initiale: le NVFP4 est un choix robuste pour le pré-entraînement de LLMs même à l’échelle des trillions de tokens — soulignant son potentiel pour un entraînement efficace des modèles de frontière à grande échelle. Le NVFP4 redéfinit le paysage de l’entraînement IA — établissant un nouveau repère pour la vitesse, l’efficacité et l’innovation orientée. En permettant le pré-entraînement en 4 bits, le NVFP4 permet aux usines IA de croître plus rapidement et de manière plus durable, ouvrant la voie à la prochaine ère de l’IA générative. En tant que technologie dynamique et en évolution, le NVFP4 continue d’ouvrir de nouvelles opportunités pour les équipes qui construisent des modèles de frontière, favorisant des progrès en IA économe en énergie et haute performance. Avec une avancée dans l’efficacité de calcul, le pré-entraînement en 4 bits ouvre la porte à des architectures plus avancées, des entraînements plus importants et des tokens bien plus nombreux — alimentant l’avenir des systèmes intelligents.

Caractéristiques clés

Recette de pré-entraînement NVFP4 en 4 bits conçue pour traiter la plage dynamique, la volatilité des gradients et la stabilité numérique dans les formations à grande échelle.
Architecture Blackwell Ultra prenant en charge les formats FP4 nativement, offrant un haut débit en FLOPs FP4 pour GB200 et GB300 et accélérant les opérations matricielles en précision étroite.
Performance GEMM mesurée avec Blackwell Ultra montrant un gain de 7x par rapport à Hopper, accélérant le pré-entraînement dans son ensemble.
Réductions de mémoire et augmentation du débit arithmétique permettant de traiter significativement plus de tokens sur le même hardware, soutenant un pré-entraînement à l’échelle du trillion de tokens.
Démonstration de stabilité et de convergence pendant le pré-entraînement en 4 bits sur un modèle 12B Hybrid Mamba-Transformer entraîné sur 10 trillions de tokens, avec data-blending en phases.
Comparaison au baseline FP8 montrant des trajectoires de perte de validation similaires et des performances en tâches en aval pour NVFP4 et FP8.
Collaboration avec des acteurs majeurs (AWS, Cohere, Google Cloud, Kimi AI, Microsoft AI, Mistral, OpenAI, Perplexity, Reflection, Runway) pour explorer NVFP4 dans des environnements réels.
La précision en 4 bits réduit la mémoire et augmente le débit arithmétique tout en maintenant une précision adaptée à la production dans les contextes de pré-entraînement.

Cas d’usage courants

Pré-entraînement de grands modèles de langage à l’échelle (régime trillions de tokens) pour améliorer le débit et l’efficacité des infrastructures.
Foires IA souhaitant maximiser le nombre de tokens traités par unité de calcul tout en conservant la stabilité et l’exactitude du pré-entraînement.
Recherche et développement d’architectures de frontière nécessitant des pipelines de pré-entraînement efficaces et évolutifs.

Configuration & installation

Non spécifié dans la source fournie. Les commandes de configuration et d’installation ne sont pas décrites dans l’extrait du NVIDIA Dev Blog.

# Configuration et installation non fournies dans la source

Quick start

Non fourni dans la source. Aucun exemple minimal exécutable n’est spécifié.

# Quick start non fourni dans la source

Avantages et inconvénients

Avantages :
Réductions de mémoire et augmentation du débit permettent un throughput token plus élevé lors du pré-entraînement.
Le pré-entraînement en 4 bits peut atteindre une convergence stable similaire au baseline FP8 selon les tâches en aval.
Gain de 7x sur GEMM avec Blackwell Ultra par rapport à Hopper, accélérant l’entraînement global.
Maintien de l’exactitude de production dans une configuration 4 bits.
Capacité à pré-entraîner à l’échelle des trillions de tokens grâce à des recettes et des stratégies de data blending dédiées.
Collaborations industrielles indiquant une validation et un intérêt du secteur.
Inconvénients :
Le pré-entraînement en 4 bits reste une phase de recherche qui nécessite des techniques spécialisées.
La validation est réalisée sur un modèle de 12B et une architecture/dataset spécifiques; la généralisation n’est pas explicitée.
Les bénéfices pour l’inférence existent mais l’accent est mis sur le pré-entraînement; les implications de déploiement plus larges sont en cours d’étude.

Alternatives (comparaisons succinctes)

| Option | Focalisation | Débit vs précision | Remarques |---|---|---|---| | NVFP4 pré-entraînement 4 bits | Pré-entraînement 4 bits avec précision FP16 | Débit élevé; égalité possible avec FP8 sur les tâches aval | Recherche en cours; recettes spécialisées requises |FP8 (baseline) | Précision 8 bits |Mémoire plus faible que FP16 mais supérieure à 4 bits | Référence FP8 pour comparaison de convergence |BF16 / FP16 (référence) | Précision plus élevée | Plus stable mais plus mémoire | Non le focus principal de NVFP4; mentionné pour stabilité |