Skip to content
NVFP4 Entrena con Precisión de 16 Bits y la Velocidad de 4 Bits para Preentrenamiento a Gran Escala
Source: developer.nvidia.com

NVFP4 Entrena con Precisión de 16 Bits y la Velocidad de 4 Bits para Preentrenamiento a Gran Escala

Sources: https://developer.nvidia.com/blog/nvfp4-trains-with-precision-of-16-bit-and-speed-and-efficiency-of-4-bit, https://developer.nvidia.com/blog/nvfp4-trains-with-precision-of-16-bit-and-speed-and-efficiency-of-4-bit/, NVIDIA Dev Blog

TL;DR

  • NVFP4 es un formato de 4 bits diseñado para ofrecer latencia, rendimiento y eficiencia excepcionales en la inferencia, manteniendo precisión de producción; NVIDIA extiende esto al preentrenamiento.
  • En una corrida de preentrenamiento con 12B Hybrid Mamba-Transformer en un conjunto de datos de 10 billones de tokens, NVFP4 demostró convergencia estable y correspondencia de precisión con FP8 en tareas downstream.
  • Las medidas de rendimiento GEMM en Blackwell Ultra muestran hasta 7x de aceleración frente a Hopper al usar FP4, reflejando ganancias en memoria, rendimiento y eficiencia de cómputo.
  • El proyecto trae una receta dedicada de preentrenamiento NVFP4 para abordar rango dinámico, volatilidad de gradientes y estabilidad numérica; el entrenamiento se mantiene en fase de investigación con colaboraciones activas entre grandes organizaciones de IA.

Contexto y antecedentes

Las cargas de trabajo de IA han crecido de forma exponencial, no solo en la implementación de modelos de lenguaje grandes (LLMs) sino también en la escala de preentrenamiento y post-entrenamiento de modelos base. A medida que las organizaciones amplían su infraestructura de cómputo para entrenar y desplegar modelos de miles de millones de parámetros, la capacidad de sostener un mayor throughput de tokens se vuelve crítica. El progreso se define cada vez más por cuántos tokens puede procesar una fábrica de IA para desbloquear nuevas capacidades. Los formatos de datos optimizados para IA han surgido como una innovación clave en este esfuerzo. NVFP4 introdujo un formato de 4 bits diseñado para ofrecer latencia de inferencia, rendimiento y eficiencia excepcionales, manteniendo una precisión apta para producción. Ahora, NVIDIA extiende esta innovación al preentrenamiento, marcando un avance significativo en el desarrollo de LLMs. Usar NVFP4 para preentrenamiento desbloquea mejoras sustanciales en la escala de entrenamiento de modelos grandes y en la eficiencia de la infraestructura. Esto no es solo una optimización incremental; es un cambio fundamental en cómo se pueden entrenar modelos grandes a gran escala. En la era de las fábricas de IA, donde el cómputo es el motor del progreso, la precisión ya no es un detalle de backend: es una ventaja estratégica. El preentrenamiento con 4 bits es desafiante porque los gradientes y las actualizaciones deben manejarse con cuidado para preservar la precisión mientras se mejora la velocidad de entrenamiento. Se requieren técnicas y recetas especializadas para mantener la efectividad al mapear tensores de alta precisión a un conjunto mucho más pequeño de valores cuantizados. En años recientes, las cargas de IA han crecido no sólo en la implementación de LLMs, sino también en la escala de preentrenamiento y post-entrenamiento de modelos base. A medida que las organizaciones amplían su infraestructura de cómputo para entrenamiento y despliegue de modelos multi-milmillonarios, el progreso se define por cuántos tokens puede sostener una fábrica de IA para desbloquear nuevas capacidades. La inferencia ha pasado por varias olas de innovación, desde FP32 y FP16 hasta FP8 y, más recientemente, NVIDIA’s NVFP4 para inferencia IA. Mientras que métodos como la cuantización post-entrenamiento (PTQ) han mostrado que NVFP4 puede ser un multiplicador de fuerza para aumentar el throughput de inferencia manteniendo la precisión, un desafío pendiente se encuentra en el preentrenamiento, donde los modelos de base todavía dependen de BF16 o FP8 para estabilidad y convergencia. El entrenamiento es donde las fábricas de IA pueden invertir la mayor parte de su cómputo, energía y tiempo. Los presupuestos de energía son fijos y los ciclos de GPU son escasos, por lo que los desarrolladores deben considerar cada bit, token y época. El throughput no es una métrica abstracta: determina qué escala de modelos se puede construir, cuántos experimentos se pueden ejecutar y cuán rápido llegarán los avances. Aquí es donde la precisión de 4 bits se vuelve transformadora. Reduciendo la memoria, aumentando el throughput aritmético y optimizando la comunicación, el preentrenamiento en 4 bits permite que las fábricas procesen significativamente más tokens con el mismo hardware. Con la receta de cuantización adecuada, puede entregar precisión comparable a FP8/BF16 mientras aumenta drásticamente el throughput — acelerando ciclos de convergencia más rápidos, más experimentos por unidad de cómputo y escalado hacia modelos fronterizos sin precedentes. Para habilitar el preentrenamiento a 4 bits, NVIDIA ha desarrollado una receta de preentrenamiento NVFP4 dedicada que aborda los principales desafíos de rango dinámico, volatilidad de gradientes y estabilidad numérica en entrenamiento a gran escala. Blackwell fue la primera arquitectura de NVIDIA en soportar de forma nativa formatos FP4. El enorme throughput FP4 en FLOPs para FP4 en GB200 y GB300 permite entrenar de forma eficiente en 4 bits al acelerar operaciones matriciales estrechas, manteniendo el paralelismo necesario para la convergencia de modelos grandes, lo que las hace ideales para futuras fábricas de IA que despliegan preentrenamiento basado en FP4. Los modelos modernos de LLM dependen en gran medida de multiplicaciones de matrices en capas completamente conectadas, haciendo crucial la eficiencia de estas operaciones. Con la precisión FP4 permitiendo una ejecución más rápida y eficiente de estas operaciones, la aceleración GEMM observada hace que todo el proceso de preentrenamiento —desde la propagación hacia adelante hasta las actualizaciones de gradiente— sea mucho más rápido, reduciendo el tiempo de entrenamiento y posibilitando desarrollos más grandes a mayor velocidad. Para permitir un entrenamiento eficiente en precisión estrecha, la receta de preentrenamiento NVFP4 aborda manejos concretos de rango dinámico, volatilidad de gradientes y estabilidad numérica. La arquitectura Blackwell Ultra ofrece una base de hardware con soporte nativo a FP4 y throughput FP4 en GB200 y GB300, permitiendo operaciones eficientes de matrices en 4 bits manteniendo el paralelismo necesario para la convergencia de modelos grandes. En las pruebas, un modelo de 12B Hybrid Mamba-Transformer fue entrenado con 10 trillones de tokens usando una estrategia en fases con mezcla de datasets y comenzó con FP8 como baseline, migrando a NVFP4 para el entrenamiento completo. El resultado con NVFP4 mostró convergencia estable y pérdidas de validación que siguieron de cerca al FP8 durante todo el entrenamiento. Las evaluaciones downstream en múltiples dominios mostraron que NVFP4 iguala al FP8, apoyando la viabilidad del preentrenamiento en 4 bits para escalas de modelo de frontera. NVFP4 está redefiniendo el panorama del entrenamiento de IA, estableciendo un nuevo umbral para velocidad, eficiencia e innovación con propósito. Al permitir el preentrenamiento en 4 bits, NVFP4 habilita a las fábricas de IA a escalar más rápido y de forma más sostenible, allanando el camino para la próxima era de IA generativa. Como tecnología dinámica y evolutiva, NVFP4 continúa abriendo nuevas oportunidades para equipos que construyen modelos frontera, impulsando IA eficiente en energía y de alto rendimiento. Con su avance en eficiencia de cómputo, el preentrenamiento en 4 bits abre la puerta a arquitecturas más avanzadas, entrenamientos más grandes y significativamente más tokens, alimentando el futuro de sistemas inteligentes.

Qué hay de nuevo

NVIDIA presentó una receta de preentrenamiento NVFP4 dedicada para hacer viable el preentrenamiento en 4 bits en entrenamiento de modelos a gran escala. En un set de 12B Hybrid Mamba-Transformer con un conjunto de datos de 10 trillones de tokens, los investigadores exploraron una estrategia de datos en fases con mezcla de datasets que cambia a lo largo del entrenamiento, comenzando con FP8 como baseline y avanzando hacia NVFP4 para el preentrenamiento completo. El mismo modelo 12B se entrenó desde cero con NVFP4, logrando convergencia estable y pérdidas de validación que siguen a FP8 durante todo el entrenamiento. Medidas en hardware dedicado muestran mejoras sustanciales de throughput para multiplicaciones de matrices; Blackwell Ultra demostró una aceleración GEMM de aproximadamente 7x al usar FP4, impulsada por una reducción de memoria y patrones de interconexión optimizados. El throughput FP4 en Blackwell es particularmente relevante para arquitecturas de clase GB200 y GB300, donde FP4 puede desbloquear nuevos niveles de eficiencia para modelos grandes. El trabajo NVFP4 está siendo seguido en colaboración con Amazon Web Services, Cohere, Google Cloud, Kimi AI, Microsoft AI, Mistral, OpenAI, Perplexity, Reflection y Runway, mostrando un interés industrial amplio en el preentrenamiento en 4 bits.

Por qué importa (impacto para desarrolladores/empresas)

Para desarrolladores y empresas, el esfuerzo NVFP4 puede significar un punto de inflexión en la forma de dimensionar modelos de base. Al reducir el uso de memoria y aumentar el throughput aritmético, el preentrenamiento en 4 bits permite experimentar a mayor escala y con ciclos de iteración más rápidos bajo presupuestos de energía fijos y ciclos de GPU limitados. La capacidad de procesar más tokens con el mismo hardware puede traducirse en tiempos de entrenamiento más cortos para modelos de frontera, acelerando la exploración de arquitecturas y regímenes de entrenamiento innovadores. El hecho de que NVFP4 pueda igualar el FP8 en rendimiento durante el preentrenamiento sugiere que 4 bits podría convertirse en una vía viable para equipos que buscan mayor eficiencia sin sacrificar la calidad del modelo. Si se valida a gran escala y con distintas familias de modelos, la aproximación NVFP4 podría influir en la planificación de infraestructuras, modelos de costo y en el diseño de futuras fábricas de IA orientadas a la velocidad y la eficiencia energética.

Detalles técnicos o Implementación

La receta de preentrenamiento NVFP4 aborda los cuellos de botella centrales del entrenamiento en precisión estrecha: rango dinámico, volatilidad de gradientes y estabilidad numérica en entrenamiento a gran escala. Blackwell Ultra ofrece una base de hardware con soporte nativo para FP4 y throughput FP4 en GB200 y GB300, permitiendo operaciones eficientes de matrices en 4 bits manteniendo el paralelismo necesario para la convergencia de grandes modelos. En las pruebas, un modelo 12B Hybrid Mamba-Transformer fue entrenado con 10 trillones de tokens usando una estrategia en fases con mezcla de datasets, empezando por FP8 y migrando a NVFP4 para el entrenamiento completo. El resultado NVFP4 mostró convergencia estable y pérdidas de validación que siguieron a FP8 a lo largo de todo el entrenamiento. En términos de rendimiento, las evaluaciones downstream en varios dominios indicaron que NVFP4 iguala al FP8, reforzando la viabilidad del preentrenamiento en 4 bits para escalas de modelos de frontera. Un punto clave es que el entrenamiento en 4 bits se vuelve práctico cuando la receta de cuantización está cuidadosamente diseñada para equilibrar rango dinámico, ruido de gradiente y estabilidad numérica. El trabajo NVFP4 enfatiza que no basta con reducir bits; es necesario mantener la calidad del entrenamiento en escalas de trillones de tokens. El esfuerzo también refleja un interés industrial amplio, evidenciado por colaboraciones con AWS, Cohere, Google Cloud, Kimi AI, Microsoft AI, Mistral, OpenAI, Perplexity, Reflection y Runway, lo que indica aplicaciones prácticas para flujos de trabajo de preentrenamiento.

Puntos clave

  • NVFP4 amplía la precisión en 4 bits desde la inferencia hasta el preentrenamiento, con la meta de mantener la precisión comparable a FP8/BF16 y mejorar throughput y uso de memoria.
  • En un experimento con 12B, NVFP4 mostró convergencia estable y desempeño downstream equivalente a FP8 en un conjunto de datos de 10 trillones de tokens.
  • Medidas en Blackwell Ultra mostraron mejoras GEMM de hasta ~7x frente a Hopper al usar FP4, impulsadas por menor consumo de memoria y mayor throughput aritmético.
  • La receta de preentrenamiento NVFP4 aborda los desafíos de rango dinámico, volatilidad de gradientes y estabilidad numérica, manteniéndose en fase de investigación con colaboraciones industriales.
  • Los resultados sugieren que el preentrenamiento NVFP4 en modelos 12B puede igualar FP8 en diversas tareas, abriendo perspectivas para flujos de trabajo de entrenamiento eficientes a gran escala.

FAQ

  • P: ¿Qué es NVFP4, en términos simples? R: NVFP4 es un formato de 4 bits diseñado para acelerar el entrenamiento y reducir el uso de memoria en modelos grandes, manteniendo una precisión comparable a baselines de mayor precisión.
  • P: ¿Cómo se compara NVFP4 con FP8 en el preentrenamiento? R: En un experimento con 12B, NVFP4 mostró convergencia estable y desempeño downstream comparable a FP8.
  • P: ¿Qué hardware demuestra las ganancias de NVFP4? R: Las mediciones provienen de Blackwell Ultra, con una aceleración GEMM de alrededor de 7x frente a Hopper al usar FP4.
  • P: ¿Está NVFP4 listo para producción? R: El preentrenamiento con NVFP4 se describe como fase de investigación, con validaciones y colaboraciones en curso.
  • P: ¿Con quién colabora NVFP4? R: AWS, Cohere, Google Cloud, Kimi AI, Microsoft AI, Mistral, OpenAI, Perplexity, Reflection y Runway.

Referencias

More news