Skip to content
Apple Machine Learning Research
Source: machinelearning.apple.com

UICoder: Afinación de LLM para Generar Código UI con Retroalimentación Automatizada

Sources: https://machinelearning.apple.com/research/uicoder, machinelearning.apple.com

TL;DR

  • UICoder utiliza retroalimentación automatizada de compiladores y modelos multimodales para guiar a grandes modelos de lenguaje (LLMs) en la generación de código UI.
  • Genera un gran conjunto de datos sintéticos por autogeneración con un modelo original, luego aplica filtrado, puntuación y deduplicación para refinar el conjunto.
  • El LLM original se ajusta (finetune) sobre el conjunto refinado para obtener modelos mejorados.
  • Las evaluaciones en LLMs de código abierto muestran que el enfoque supera a todos los baselines descargables y se aproxima al rendimiento de modelos propietarios más grandes.
  • El trabajo se ha presentado en lugares como VL/HCC 2024 y ACL en 2025, destacando el interés en la retroalimentación automatizada para la generación de código UI.

Contexto y antecedentes

Los grandes modelos de lenguaje (LLMs) tienen dificultades para generar código de UI que compile y produzca diseños visuales relevantes. Los enfoques existentes para mejorar la generación suelen depender de retroalimentación humana costosa o de destilación de un modelo propietario. Este estudio investiga una alternativa: retroalimentación automatizada (compiladores y modelos multimodales) que guíe a los LLMs para producir código UI de alta calidad. Generar un gran conjunto de datos sintéticos mediante el modelo original y filtrarlos y deduplicarlos con herramientas automatizadas busca crear un conjunto de datos refinado y de alta calidad que, al ser utilizado para el finetuning, eleva el rendimiento del modelo.

Qué hay de nuevo

UICoder propone un ciclo de datos auto-dirigido e iterativo: partir de un LLM existente, generar un gran conjunto de datos sintéticos y aplicar herramientas automatizadas para filtrar, puntuar y deduplicar, produciendo un conjunto refinado de alta calidad. El modelo LLM original se fine-tunea sobre este conjunto para obtener modelos mejorados. La evaluación reporta la aplicación de este flujo a varios LLMs open-source y la comparación con baselines, utilizando métricas automatizadas y preferencias humanas. En conjunto, los modelos ajustados superan a todos los baselines descargables y se acercan al rendimiento de modelos propietarios más grandes, indicando que la retroalimentación automatizada puede elevar significativamente la generación de código UI sin acceso a grandes modelos cerrados. El trabajo está asociado con conferencias que subrayan la naturaleza interdisciplinaria del tema, incluida VL/HCC 2024 (IEEE Symposium on Visual Languages and Human-Centric Computing) y la ACL en 2025.

Por qué importa (impacto para desarrolladores/empresas)

  • Reducción de costos para mejorar modelos: la retroalimentación automatizada permite mejorar LLMs para la generación de código UI de forma más rápida que la anotación humana costosa.
  • Acceso más amplio vía modelos open-source: demostrar mejoras en LLMs open-source facilita a los desarrolladores obtener capacidades avanzadas de generación de código UI sin depender de grandes modelos propietarios.
  • Paridad con modelos grandes: el finetuning con datos refinados acerca el rendimiento de LLMs open-source a los de modelos propietarios más grandes.
  • Generación de código más fiable: el pipeline de filtrado y deduplicación prioriza la calidad de los datos, conduciendo a código UI más limpio y estable.

Detalles técnicos o Implementación

El método central sigue un pipeline en varias etapas:

  • Comenzar con un LLM existente como modelo base.
  • Generar un gran conjunto de datos sintéticos usando este modelo (datos auto-generados).
  • Aplicar herramientas automatizadas para filtrar, puntuar y deduplicar los datos, creando un conjunto refinado de alta calidad.
  • Realizar un finetuning del LLM base sobre el conjunto refinado para obtener modelos mejorados.
  • Evaluar los modelos resultantes con métricas automatizadas y preferencias humanas para compararlos con baselines. Un aspecto notable de la evaluación es el uso de preferencias par a par entre respuestas del modelo, una señal de retroalimentación útil en dominios donde las métricas tradicionales son difíciles de definir. Esta aproximación ayuda a cuantificar el progreso del modelo e impulsar iteraciones futuras. Aplicado a varios LLMs open-source, los modelos finetunados mostraron mejoras sobre todos los baselines descargables y se acercaron al rendimiento de modelos propietarios más grandes en evaluaciones automatizadas y humanas.

Principales conclusiones

  • Las bucles de retroalimentación automatizados que combinan señales de compiladores e indicios multimodales pueden guiar a los LLMs hacia una generación de código UI de mayor calidad.
  • Un proceso iterativo de generación de datos auto-generados, filtrado, deduplicación y finetuning produce mejoras medibles respecto a baselines.
  • El enfoque funciona con LLMs open-source, aumentando la accesibilidad a capacidades avanzadas de generación de código UI.
  • Las preferencias par-a-par son un mecanismo práctico de retroalimentación para evaluar la calidad de la generación de código UI cuando las métricas estándar no están claras.
  • Este trabajo fue presentado en VL/HCC 2024 y discutido en ACL en 2025, señalando un interés continuo en enfoques de retroalimentación automatizada para la generación de código UI.

Preguntas frecuentes (FAQ)

  • P: ¿Qué busca mejorar UICoder? R: La generación de código UI por LLMs usando retroalimentación automatizada, incluyendo señales de compilación y modelos multimodales.
  • P: ¿Cómo se crean los datos? R: Un LLM de base genera un gran conjunto de datos sintéticos, que luego se filtra, evalúa y deduplica para producir un conjunto refinado.
  • P: ¿Dónde se evalúa? R: Se aplica a varios LLMs open-source y se evalúa con métricas automatizadas y preferencias humanas.
  • P: ¿Qué impacto práctico tiene para los desarrolladores? R: Mejora la calidad de la generación de código UI sin depender de etiquetado humano costoso o distilación de modelos propietarios grandes.
  • P: ¿Dónde se presentó este trabajo? R: En VL/HCC 2024 y en el marco de la ACL en 2025.

Referencias

More news