UICoder : Affinage des LLMs pour générer du code d’UI avec des retours automatisés

TL;DR

Les grands modèles de langage peinent à générer du code UI qui se compile et reflète des designs visuels pertinents. Apple Research
UICoder utilise des retours automatisés issus de compilateurs et de modèles multimodaux pour guider les LLMs vers un code UI de meilleure qualité. Apple Research
Le mécanisme démarre d’un LLM existant et crée itérativement un grand jeu de données synthétiques par auto-génération, puis applique un filtrage, une attribution de score et une dés duplication automatisés pour obtenir un jeu affiné de haute qualité. Le LLM initial est ensuite affiné sur ce jeu affiné. Apple Research
Appliqué à plusieurs LLMs open-source et évalué par rapport à des baselines avec des métriques automatiques et des préférences humaines; les résultats montrent une amélioration par rapport à tous les baselines téléchargeables et s’approchent des performances des modèles propriétaires plus grands. Apple Research
L’étude souligne l’importance du feedback automatisé dans la génération de code UI et le potentiel de réduire la dépendance au feedback humain coûteux. Apple Research

Contexte et arrière-plan

Les développeurs s’appuient fréquemment sur des tutoriels ML et des codes générés lors du développement UI, mais les LLMs produisent souvent un code UI qui ne se compile pas ou qui ne reproduit pas fidèlement le design visuel. Le domaine évalue aussi les modèles à l’aide de signaux de préférences par paire, largement utilisés pour mesurer les progrès et guider le développement lorsque les métriques formelles sont difficiles à obtenir. Le travail UICoder propose ces signaux dans un flux de travail axé sur le feedback automatisé plutôt que sur l’étiquetage humain ou la distillation propriétaire. L’article a été accepté au VL/HCC 2024, soulignant le rôle des signaux automatisés dans l’amélioration du code UI généré par les LLMs. Apple Research

Ce qui est nouveau

UICoder introduit une boucle d’auto-amélioration qui part d’un LLM existant et produit progressivement des modèles plus compétents pour générer du code UI. Les éléments clés sont :

Données synthétiques auto-générées : le LLM de base produit un vaste jeu de données UI.
Filtrage et scoring automatisés : des vérifications de compilateur et une analyse multimodale filtrent et classent les données pour en améliorer la qualité.
Dés-duplication : les duplications sont retirées pour réduire les redondances et le surapprentissage.
Affinage : on affilie le LLM initial sur le jeu affiné pour obtenir un générateur de code UI plus performant.
Évaluation ouverte : la méthode a été appliquée à plusieurs LLMs open-source et comparée à des baselines à la fois par métriques automatiques et préférences humaines.
Résultats compétitifs : les modèles obtenus surpassent tous les baselines téléchargeables et approchent les performances des modèles propriétaires plus grands. Apple Research | Aspect | Baselines | UICoder (modèle final) |---|---|---| | Source de données pour l’amélioration | Données standard ou annotées par humains | Données synthétiques auto-générées et affinées par outils automatisés |Filtrage | Limité ou inexistant | Filtrage agressif, attribution de score et dés-duplication |Évaluation | Mététriques automatiques et/ou préférence humaine limitée | Mététriques automatiques + préférences humaines |Open-Source | Appliqué à quelques LLMs open-source | Appliqué à plusieurs LLMs open-source |Performance vs propriétaires | Généralement en retrait | Dépasse les baselines téléchargeables et s’approche des modèles propriétaires plus grands |

Pourquoi c’est important (impact pour les développeurs/entreprises)

Pour les développeurs créant des interfaces utilisateur riches, UICoder montre une voie pour générer du code UI de meilleure qualité sans dépendre de feedback humain coûteux ou de distillation de modèles propriétaires. En tirant parti d’un feedback automatisé et de données auto-générées, des organisations peuvent améliorer des modèles open-source pour rivaliser plus près avec des modèles plus vastes et fermés, réduisant le temps de mise sur le marché des composants UI. L’approche insiste sur la reproductibilité et l’évolutivité pour les équipes qui veulent faire évoluer leurs pipelines de code UI avec moins d’étiquetage manuel. Apple Research

Détails techniques ou Mise en œuvre

Boucle de base et amélioration : démarrer avec un LLM existant et générer un grand jeu de données synthétiques de code UI via le modèle lui-même.
Outils de feedback automatisés : vérifications de compilation et analyses multimodales pour filtrer, attribuer des scores et dédupliquer les données, guidant l’entraînement ultérieur.
Affinage des données : suppression des duplications et sélection soignée du corpus pour former un ensemble d’entraînement de haute qualité.
Ajustement fin : affiner le LLM initial avec le jeu affiné pour produire un generateur de code UI plus performant.
Cadre d’évaluation : comparaison des modèles affiné avec des baselines via métriques automatiques et préférences humaines pour capturer à la fois la qualité objective et l’adéquation esthétique des tâches UI. Apple Research

Points clés

Le feedback automatisé peut guider les LLMs à produire un code UI plus fiable que des baselines reposant sur des signaux humains ou statiques.
Un cycle d’auto-amélioration permet une génération et un raffinage rapide des données sans étiquetage manuel constant.
Les LLMs open-source peuvent combler partiellement l’écart avec les modèles propriétaires quand ils sont associés à un filtrage automatisé, une évaluation rigoureuse et un affinement minutieux.
L’évaluation combinant métriques automatiques et préférences humaines offre un signal plus riche pour la qualité du code UI.
L’approche est conçue pour être reproductible sur différents LLMs open-source et tâches de génération de code UI. Apple Research

FAQ

Références

https://machinelearning.apple.com/research/uicoder

UICoder : Affinage des LLMs pour générer du code d’UI avec des retours automatisés

TL;DR

Contexte et arrière-plan

Ce qui est nouveau

Pourquoi c’est important (impact pour les développeurs/entreprises)

Détails techniques ou Mise en œuvre

Points clés

FAQ

Références

More news

Shadow Leak montre comment les agents ChatGPT peuvent exfiltrer des données Gmail via injection de prompt

Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo

Détection et réduction de scheming dans les modèles d IA : progrès, méthodes et implications

Autodesk Research mène la CFD à vitesse Warp sur le NVIDIA GH200

Réduire la latence de démarrage à froid pour l’inférence LLM avec NVIDIA Run:ai Model Streamer

Simplifier l accès aux changements de contenu ISO-rating avec Verisk Rating Insights et Amazon Bedrock