Skip to content
Ajuste fino de gpt-oss para precisión y rendimiento con entrenamiento de cuantización consciente
Source: developer.nvidia.com

Ajuste fino de gpt-oss para precisión y rendimiento con entrenamiento de cuantización consciente

Sources: https://developer.nvidia.com/blog/fine-tuning-gpt-oss-for-accuracy-and-performance-with-quantization-aware-training, https://developer.nvidia.com/blog/fine-tuning-gpt-oss-for-accuracy-and-performance-with-quantization-aware-training/, NVIDIA Dev Blog

TL;DR

  • NVIDIA presenta un flujo práctico de ajuste fino para gpt-oss que utiliza fine-tuning supervisado en alta precisión (SFT) seguido de entrenamiento consciente a la cuantización (QAT) para recuperar la precisión en FP4 preservando la eficiencia de despliegue.
  • El flujo sube a BF16 para el SFT y, a continuación, aplica QAT para volver a la precisión MXFP4, permitiendo alineación y beneficios de despliegue en baja precisión.
  • En la evaluación se observaron mejoras notables en dos tareas: razonamiento no inglés con un conjunto de datos multilingüe de OpenAI Cookbook y reducción de rechazos innecesarios de prompts seguros con el conjunto FalseReject de Amazon. Las puntuaciones de base eran 16% y 30%; después del flujo, llegaron a 98% de aprobación en ambas tareas.
  • NVFP4, un formato FP4 más reciente diseñado para entrenamiento e inferencia en NVIDIA Blackwell, muestra una pérdida de validación 2–3% mejor y promete convergencia más estable para tareas con razonamiento más profundo.
  • El flujo MXFP4 se puede adaptar a NVFP4 con una sola línea de código; se espera que el soporte de NVFP4 en TensorRT-LLM se generalice a más frameworks.
  • El flujo completo está implementado en el repositorio NVIDIA Model Optimizer, con un script de conveniencia para exportar a checkpoints de PyTorch estándar y rutas de despliegue a través de TensorRT-LLM.

Contexto y antecedentes

Los lanzamientos de modelos de base de código abierto han impulsado a la comunidad de IA con innovaciones arquitectónicas y nuevas capacidades. La familia gpt-oss representa la primera colección de modelos open‑source desde GPT-2 de OpenAI, ofreciendo un modelo avanzado con arquitectura MoE, longitud de contexto de 128K y habilidades de razonamiento profundo ajustables. La variante más grande, gpt-oss-120B, alcanza un rendimiento en benchmarks abiertos comparable a los modelos o3 y o4 de OpenAI, cerrando la brecha entre código abierto y soluciones propietarias. A pesar del rendimiento sólido, muchos modelos requieren técnicas de post-entrenamiento para desplegarse en producción, especialmente en industrias de baja tolerancia a fallos como la salud y las finanzas. El FP4 nativo de gpt-oss presentó desafíos únicos para el ajuste fino. NVIDIA señala que la precisión estable en FP4 aún no está completamente establecida para el ajuste fino, lo que impulsa un enfoque en dos etapas: subida de precisión para estabilizar gradientes, seguida de SFT en alta precisión y una aplicación subsiguiente de QAT para volver a FP4 manteniendo el rendimiento específico de la tarea. Este flujo SFT + QAT busca entregar alineación y eficiencia de despliegue en baja precisión. Las herramientas clave incluyen el repositorio NVIDIA Model Optimizer, el soporte de las recetas gpt-oss de Hugging Face, y necesidades de OpenAI Cookbook y del Transformer Engine de segunda generación. El objetivo es recuperar precisión en FP4 mientras se conservan los beneficios de eficiencia de la inferencia de baja precisión para aplicaciones en producción.

Qué hay de nuevo

  • La recomendación central es realizar el fine-tuning en alta precisión (BF16) para estabilizar gradientes, y luego aplicar QAT para retornar a MXFP4 para el despliegue. Saltarse la etapa de alta precisión y saltar directamente al QAT tiende a producir menor precisión final.
  • En dos tareas de evaluación se observan mejoras sustanciales: razonamiento no inglés usando un dataset multilingüe de OpenAI Cookbook y reducción de rechazos de prompts seguros usando el dataset FalseReject de Amazon. Las puntuaciones iniciales fueron 16% y 30%; tras aplicar el flujo, se alcanzaron 98% en ambas tareas.
  • Se compara MXFP4 con NVFP4; NVFP4 tiende a converger de manera más fiable y muestra una pérdida de validación 2–3% menor en las tareas evaluadas. NVFP4 está diseñado para FP4 en entrenamiento e inferencia y aprovecha el segundo generación del Transformer Engine para mejores rendimientos.
  • La migración de MXFP4 a NVFP4 puede hacerse con una única línea de código, lo que demuestra una ruta de adopción simple a medida que el soporte NVFP4 se expande en TensorRT-LLM y otros marcos.
  • Con NVIDIA Blackwell, NVFP4 permite hasta 15 PFLOPs de cómputo FP4 en Ultra compute, proporcionando convergencia más ajustada y márgenes mayores para umbrales más estrictos y razonamiento más profundo. RX E4M3 FP8 mejora la cuantización durante el paso forward, reduciendo los errores de cuantización para facilitar la adaptación de pesos a la precisión objetivo.
  • Después de completar la receta, un script de conveniencia en el repositorio Model Optimizer exporta el checkpoint entrenado en BF16 a MXFP4; los checkpoints MXFP4 resultantes se han probado con SGLang, TensorRT-LLM y vLLM. El despliegue puede hacerse con TensorRT-LLM 1.1.0rc1.
  • El principal desafío sigue siendo recuperar la precisión en FP4 manteniendo las ventajas de la eficiencia de baja precisión. El camino propuesto—subir a BF16 para SFT y luego aplicar QAT—aborda esta brecha adaptando los pesos a la precisión final sin perder el comportamiento específico de la tarea.

Por qué importa (impacto para desarrolladores/empresas)

Para desarrolladores y empresas, la capacidad de desplegar modelos de código abierto potentes como gpt-oss en FP4, manteniendo o mejorando la precisión, representa un ROI atractivo. La combinación SFT + QAT facilita recuperar el rendimiento específico de la tarea sin sacrificar las ganancias de eficiencia de la inferencia en baja precisión. En sectores sensibles a la seguridad, una mayor alineación y menos rechazos se traducen en sistemas IA más útiles y confiables. A medida que el hardware avanza, la llegada de NVFP4 podría desbloquear mejoras adicionales de precisión cuando se combine con QAT. La arquitectura Blackwell de NVIDIA y herramientas asociadas como el Transformer Engine de segunda generación y TensorRT-LLM están posicionadas para entregar convergencia más ajustada y márgenes mayores para umbrales más estrictos y razonamiento más profundo en despliegues de producción. La posibilidad de adaptar checkpoints MXFP4 a NVFP4 con cambios mínimos de código reduce barreras y acelera los plazos de despliegue.

Detalles técnicos o Implementación

  • Flujo central: subida a BF16 para SFT, luego QAT hacia MXFP4 para despliegue. Esta secuencia estabiliza gradientes en alta precisión y permite adaptar pesos a la precisión FP4 deseada.
  • Los hiperparámetros y la duración del QAT son ajustables; omitir la etapa de alta precisión puede disminuir la precisión final, por lo que se recomienda realizar fine-tuning en alta precisión antes del QAT.
  • Las dos tareas de evaluación muestran el impacto práctico del flujo: 98% de aprobación tras el recipe en cada tarea: | Tarea | Base | Tasa de aprobación tras el flujo |---|---|---| | Razonamiento no inglés (dataset multilingüe OpenAI Cookbook) | 16% | 98% |Rechazo de prompts seguros (Amazon FalseReject) | 30% | 98% |
  • Para migrar de MXFP4 a NVFP4, basta con una línea de código para adaptar la ruta; tras ello, la pérdida de validación es generalmente 2–3% menor según la tarea.
  • NVFP4 introduce un formato FP4 diseñado para entrenamiento e inferencia, permitiendo hasta 15 PFLOPs de cómputo FP4 en la arquitectura Ultra de Blackwell, para una convergencia más ajustada y márgenes mayores en tareas más exigentes. E4M3 FP8 ayuda a reducir errores de cuantización durante el forward, facilitando la adaptación de pesos a la precisión objetivo.
  • El flujo incluye exportar el checkpoint BF16 a MXFP4 mediante un script en el Model Optimizer, y desplegarlo con herramientas validadas como SGLang, TensorRT-LLM y vLLM.
  • El flujo se alinea con esfuerzos continuos para integrar el soporte NVFP4 en TensorRT-LLM y otros marcos de inferencia de código abierto, acelerando su adopción cuando NVFP4 esté completamente disponible.

Puntos clave

  • Un camino de ajuste fino en dos pasos (SFT en alta precisión seguido de QAT para FP4) permite recuperar la precisión en despliegues.
  • Los resultados en tareas objetivo son sorprendentes: 98% de aprobación tras el recipe para ambas tareas.
  • NVFP4 ofrece posibles mejoras de precisión y convergencia frente a MXFP4, con menor pérdida de validación.
  • La migración MXFP4 → NVFP4 es simple y rápida, requiriendo solo una línea de código.
  • El repositorio NVIDIA Model Optimizer provee herramientas completas para exportar, validar e implantar checkpoints en entornos de producción.

FAQ

  • ¿Cuál es la idea central del QAT en este flujo?

    El entrenamiento consciente a la cuantización ajusta los pesos a FP4 manteniendo la precisión adquirida durante el SFT en alta precisión.

  • ¿Por qué subir a BF16 antes del QAT?

    Subir a BF16 estabiliza la acumulación de gradientes durante el fine-tuning, haciendo el QAT más confiable para recuperar la precisión FP4.

  • ¿Qué son MXFP4 y NVFP4?

    Son formatos FP4 para pesos y cálculos; MXFP4 es la ruta base y NVFP4 es un formato más reciente optimizado para hardware Blackwell.

  • ¿Cómo desplegar el modelo ajustado?

    Exportar el checkpoint BF16 a MXFP4 y desplegar con TensorRT-LLM u otros marcos compatibles.

  • ¿Dónde obtener la receta completa?

    En el repositorio NVIDIA Model Optimizer, con adaptaciones futuras para NVFP4 a medida que se amplíe el soporte.

Referencias

More news