NVFP4 Entrena con Precisión de 16 Bits y Velocidad y Eficiencia de 4 Bits
Sources: https://developer.nvidia.com/blog/nvfp4-trains-with-precision-of-16-bit-and-speed-and-efficiency-of-4-bit, https://developer.nvidia.com/blog/nvfp4-trains-with-precision-of-16-bit-and-speed-and-efficiency-of-4-bit/, NVIDIA Dev Blog
Visión general
Las cargas de trabajo de IA han crecido de forma exponencial, no solo en el despliegue de grandes modelos de lenguaje (LLMs) sino también en la demanda de procesar tokens durante el preentrenamiento y el postentrenamiento. A medida que las organizaciones amplían la infraestructura de cómputo para entrenar y desplegar modelos de miles de millones de parámetros, la tasa de tokens por segundo se vuelve crítica. Las fábricas de IA se miden por cuántos tokens pueden procesar para desbloquear nuevas capacidades. Los formatos de datos optimizados para IA emergen como una innovación clave en este esfuerzo. La computación de precisión estrecha ya ha transformado la inferencia, con la introducción de NVFP4, un formato de 4 bits diseñado para entregar baja latencia, alto rendimiento y eficiencia, manteniendo la precisión de producción. Ahora NVIDIA extiende esta innovación al preentrenamiento, marcando un salto significativo en el desarrollo de LLMs. Usar NVFP4 para el preentrenamiento desbloquea mejoras importantes en el entrenamiento de LLMs a gran escala y la eficiencia de la infraestructura. No se trata de una optimización incremental: es un cambio fundamental sobre cómo se pueden entrenar modelos grandes a escala. En la era de las fábricas de IA, donde el cómputo es el motor del progreso, la precisión ya no es un detalle de fondo, es una ventaja estratégica. El preentrenamiento en 4 bits con NVFP4 redefine los límites de la eficiencia y escalabilidad, fijando un nuevo estándar para el desarrollo de modelos de IA de alto rendimiento. El entrenamiento con NVFP4 aún está en fase de investigación, explorando y validando el potencial de la precisión de 4 bits en el preentrenamiento de gran escala. Colaboraciones y compromisos continuos alrededor de NVFP4 están en curso con organizaciones líderes como AWS, Cohere, Google Cloud, Kimi AI, Microsoft AI, Mistral, OpenAI, Perplexity, Reflection y Runway. La cuantización en 4 bits se refiere al proceso de reducir la precisión de pesos y activaciones a solo 4 bits, una caída drástica con respecto a los formatos de punto flotante típicos de 16 o 32 bits. El preentrenamiento con 4 bits es un desafío porque los gradientes y actualizaciones deben manejarse con mucho cuidado para preservar la precisión mientras se mejora la velocidad de entrenamiento. Se requieren técnicas y recetas especializadas para mantener la efectividad al mapear tensores de alta precisión a un conjunto mucho menor de valores cuantizados. En años recientes, las cargas de IA han crecido no solo en la inferencia, sino también en la escala de preentrenamiento y postentrenamiento de modelos base. A medida que las organizaciones expanden la infraestructura de cómputo para gestionar el preentrenamiento y el despliegue de modelos de miles de millones de parámetros, el progreso se define por cuántos tokens puede sostener una fábrica de IA para desbloquear nuevas capacidades. La inferencia ha experimentado varias olas de innovación, desde FP32 y FP16 hasta FP8 y, más recientemente, el lanzamiento de NVFP4 para inferencia de IA. Aunque métodos como la cuantización posterior al entrenamiento (PTQ) han mostrado que NVFP4 puede ser un multiplicador de fuerza para aumentar el throughput de inferencia manteniendo la precisión, el desafío que queda está en el preentrenamiento, donde los modelos de base aún dependen de BF16 o FP8 para la estabilidad y la convergencia. El entrenamiento es donde las fábricas de IA pueden gastar la mayor parte del cómputo, la energía y el tiempo. Los presupuestos de energía son fijos y los ciclos de GPU son escasos, por lo que los desarrolladores deben considerar cada bit, token y época. El throughput no es una métrica abstracta aquí: determina directamente qué escala de modelos se puede construir, cuántos experimentos se pueden realizar y cuán rápido surgen avances. Aquí es donde la precisión de 4 bits se vuelve transformadora. Al reducir la memoria, aumentar el rendimiento aritmético y optimizar la comunicación, el preentrenamiento en 4 bits permite que las fábricas procesen muchos más tokens en el mismo hardware. Con la receta de cuantización adecuada, se puede lograr precisión equivalente al FP8/BF16 mientras se aumenta drásticamente el throughput, abriendo ciclos de convergencia más rápidos, más experimentos por unidad de cómputo y escalando a modelos de frontera sin precedentes. Para habilitar el preentrenamiento en 4 bits, hemos desarrollado una receta de preentrenamiento NVFP4 específica que aborda los principales desafíos de rango dinámico, volatilidad de gradientes y estabilidad numérica en el entrenamiento a gran escala. Blackwell fue la primera arquitectura de NVIDIA en soportar nativamente formatos FP4. El enorme throughput FP4 en FLOPs en GB200 y GB300 posibilita un entrenamiento 4-bit eficiente acelerando operaciones matriciales de precisión estrecha, manteniendo la escala y el paralelismo necesarios para la convergencia de grandes modelos —haciéndolos ideales para futuras fábricas de IA que implementen preentrenamiento basado en FP4. La Figura 1 a continuación muestra un rendimiento GEMM medido con Blackwell Ultra, revelando una ganancia de 7x sobre la generación Hopper. Los modelos modernos de LLM dependen fundamentalmente de multiplicación de matrices, especialmente en sus capas totalmente conectadas o lineales, lo que hace crítica la eficiencia de estas operaciones. Con la precisión FP4, la ejecución de estas operaciones es más rápida y eficiente, por lo que todo el proceso de preentrenamiento —desde la propagación hacia adelante hasta las actualizaciones de gradiente— se ejecuta mucho más rápido, reduciendo el tiempo de entrenamiento y posibilitando el desarrollo a mayor escala. Para hacer viable el preentrenamiento en 4 bits, la receta NVFP4 utiliza varias técnicas clave elegidas por su rendimiento y precisión. Para que los formatos de precisión estrecha sean prácticos en preentrenamiento a gran escala, deben garantizar la precisión del modelo y una convergencia estable. Para evaluar la viabilidad de la precisión de 4 bits en el entrenamiento de gran escala, se realizaron experimentos con FP8 y NVFP4 en un modelo de 12 mil millones de parámetros basado en una arquitectura Mamba-Transformer combinada (12B Hybrid Mamba-Transformer), similar al NVIDIA Nemotron Nano 2. Este modelo se entrenó con un enorme conjunto de 10 trillones de tokens usando un enfoque de mezcla de datos en fases, cambiando a una mezcla de datos diferente en la segunda fase de entrenamiento al 70% y en la tercera fase al 90% durante el preentrenamiento. Una versión del modelo 12B Hybrid Mamba-Transformer se entrenó inicialmente con precisión de 8 bits — FP8, que ha demostrado en estudios previos acercarse a la precisión de 16 bits y, por lo tanto, sirvió como base de comparación. Luego logramos entrenar este mismo modelo desde cero usando NVFP4, demostrando que este nuevo formato de baja precisión puede soportar un preentrenamiento completo a escala de trillones de tokens. La ejecución con NVFP4 mostró convergencia estable sin los problemas de inestabilidad o divergencia que suelen afectar a entrenamientos de precisión ultra baja. La Figura 3 a continuación muestra que la curva de pérdida de validación de NVFP4 se asemeja a las curvas de pérdida del baseline de mayor precisión (FP8) a lo largo de toda la duración del entrenamiento. Las técnicas de cuantización descritas aseguran que, incluso con una reducción agresiva de bits, la dinámica de preentrenamiento en 4 bits se parezca a las ejecuciones de mayor precisión. Luego tomamos el modelo 12B Hybrid Mamba-Transformer preentrenado con NVFP4 y lo comparamos con el baseline FP8 en una serie de tareas downstream y dominios de inteligencia. La Figura 4 ilustra que, en todos los dominios, NVFP4 iguala el rendimiento de FP8, destacando su efectividad. Este hallazgo refuerza la hipótesis inicial: NVFP4 es una opción robusta para el preentrenamiento de LLMs incluso a escala de trillones de tokens, destacando su potencial para entrenamientos eficientes de modelos de frontera a gran escala. El NVFP4 está redefiniendo el panorama del entrenamiento de IA — estableciendo un nuevo referente para velocidad, eficiencia e innovación orientada. Al habilitar el preentrenamiento en 4 bits, NVFP4 capacita a las fábricas IA para escalar más rápidamente y de forma más sostenible, allanando el camino para la próxima era de la IA generativa. Como tecnología dinámica y en evolución, NVFP4 continúa desbloqueando nuevas oportunidades para equipos que construyen modelos de frontera, impulsando avances en IA energéticamente eficiente y de alto rendimiento. Con su avance en la eficiencia de cómputo, el preentrenamiento en 4 bits abre la puerta a arquitecturas más avanzadas, entrenamientos más grandes y significativamente más tokens — alimentando el futuro de sistemas inteligentes.
Características clave
- Receta de preentrenamiento NVFP4 en 4 bits diseñada para abordar rango dinámico, volatilidad de gradientes y estabilidad numérica en entrenamientos a gran escala.
- Arquitectura Blackwell Ultra que soporta formatos FP4 de forma nativa, proporcionando un alto throughput de FLOPs FP4 para GB200 y GB300 y acelerando las operaciones matriciales de precisión estrecha.
- Rendimiento GEMM medido con Blackwell Ultra que muestra una ganancia de 7x frente a Hopper, acelerando el preentrenamiento en su conjunto.
- Reducciones de memoria y aumento de throughput aritmético permiten procesar significativamente más tokens en el mismo hardware, soportando entrenamiento a escala de trillones de tokens.
- Demostración de estabilidad y convergencia durante el preentrenamiento en 4 bits en un modelo 12B Hybrid Mamba-Transformer entrenado con 10 trillones de tokens, usando data-blending en fases.
- Comparación con FP8 demuestra trayectorias de pérdida de validación similares y rendimiento en tareas downstream entre NVFP4 y FP8.
- Colaboración con actores importantes (AWS, Cohere, Google Cloud, Kimi AI, Microsoft AI, Mistral, OpenAI, Perplexity, Reflection, Runway) para explorar NVFP4 en entornos reales.
- La precisión en 4 bits reduce la memoria y aumenta el throughput aritmético manteniendo la exactitud adecuada para entrenamiento.
Casos de uso comunes
- Preentrenamiento de grandes modelos de lenguaje a escala (régimen de trillones de tokens) para mejorar throughput y eficiencia de infraestructuras.
- Fábricas de IA que buscan maximizar tokens procesados por unidad de cómputo manteniendo la estabilidad y precisión del entrenamiento.
- Investigación y desarrollo de arquitecturas de frontera que requieren pipelines de preentrenamiento eficientes y escalables.
Configuración e instalación
No especificado en la fuente proporcionada. Las instrucciones de configuración e instalación no se describen en el extracto del NVIDIA Dev Blog.
# Configuración y instalación no proporcionadas en la fuente
Quick start
No proporcionado en la fuente. No se especifica un ejemplo mínimo ejecutable.
# Quick start no proporcionado en la fuente
Pros y contras
- Pros:
- Reducciones de memoria y aumento de throughput permiten mayor procesamiento de tokens en el preentrenamiento.
- El preentrenamiento en 4 bits puede lograr convergencia estable similar al baseline FP8 en varias tareas downstream.
- Ganancia de 7x en GEMM con Blackwell Ultra frente a Hopper, acelerando el entrenamiento en general.
- Mantiene la exactitud de producción mientras opera en 4 bits.
- Capacidad para preentrenar a escala de trillones de tokens gracias a recetas dedicadas de 4 bits y estrategias de mezcla de datos.
- Colaboraciones con la industria indican validación y interés en el sector.
- Contras:
- El preentrenamiento en 4 bits sigue siendo un área de investigación que requiere técnicas especializadas.
- La validación se realizó en un modelo de 12B con una arquitectura y conjunto de datos específicos; no se generaliza a todos los modelos.
- Los beneficios para inferencia existen, pero el enfoque principal es el preentrenamiento; las implicaciones de implementación más amplias están en estudio.
Alternativas (comparaciones breves)
| Opción | Enfoque | Rendimiento vs precisión | Notas |---|---|---|---| | NVFP4 preentrenamiento 4 bits | Preentrenamiento 4 bits con precisión FP16 | Alto throughput; iguala FP8 en tareas downstream | En fase de investigación; se requieren recetas especializadas |FP8 (baseline) | Precisión 8 bits | Menor memoria que FP16 pero mayor que 4 bits | Baseline FP8 para comparación de convergencia |BF16 / FP16 (referencia) | Precisión más alta | Más estable pero más memoria | No es el foco principal de NVFP4; mencionado para estabilidad |
Pricing o Licencia
No especificado en la fuente.
Referencias
More resources
CUDA Toolkit 13.0 para Jetson Thor: Ecosistema Unificado de Arm y Más
Kit CUDA unificado para Arm en Jetson Thor con coherencia de memoria total, uso compartido de GPU entre procesos, interoperabilidad OpenRM/dmabuf, soporte NUMA y herramientas mejoradas para embebidos y servidores.
Reducir costos de implementación de modelos manteniendo el rendimiento con intercambio de memoria de GPU
Utiliza el intercambio de memoria de GPU (hot-swapping de modelos) para compartir GPUs entre varios LLM, reducir costos de GPU ociosas y mejorar el autoescalado manteniendo los SLA.
Mejora del autoajuste de GEMM con nvMatmulHeuristics en CUTLASS 4.2
Presenta nvMatmulHeuristics para seleccionar rápidamente un conjunto corto de configuraciones de kernels GEMM con alto potencial para CUTLASS 4.2, reduciendo drásticamente el tiempo de ajuste y acercándose al rendimiento de una búsqueda exhaustiva.
Ajuste fino de gpt-oss para Precisión y Rendimiento con Entrenamiento Consciente de Cuantización (QAT)
Guía de afinado fino de gpt-oss usando SFT + QAT para recuperar precisión FP4 manteniendo la eficiencia, con upcasting a BF16, MXFP4, NVFP4 y despliegue con TensorRT-LLM.
Cómo los modelos de lenguaje pequeños son la clave para una IA agentica escalable
Explica cómo los modelos de lenguaje pequeños permiten IA agentica más rentable y flexible junto a LLMs, mediante NVIDIA NeMo y Nemotron Nano 2.
Guía de inicio de NVIDIA Isaac para la salud: flujo de telesurgería
Flujo de telesurgería modular y listo para producción de NVIDIA Isaac for Healthcare, que unifica simulación y despliegue clínico a través de una arquitectura de baja latencia en tres computadoras. Cubre streaming de video/sensores, control robótico, háptica y simulación.