UICoder : Affinage des LLMs pour générer du code d’UI avec des retours automatisés
Sources: https://machinelearning.apple.com/research/uicoder, machinelearning.apple.com
TL;DR
- Les grands modèles de langage peinent à générer du code UI qui se compile et reflète des designs visuels pertinents. Apple Research
- UICoder utilise des retours automatisés issus de compilateurs et de modèles multimodaux pour guider les LLMs vers un code UI de meilleure qualité. Apple Research
- Le mécanisme démarre d’un LLM existant et crée itérativement un grand jeu de données synthétiques par auto-génération, puis applique un filtrage, une attribution de score et une dés duplication automatisés pour obtenir un jeu affiné de haute qualité. Le LLM initial est ensuite affiné sur ce jeu affiné. Apple Research
- Appliqué à plusieurs LLMs open-source et évalué par rapport à des baselines avec des métriques automatiques et des préférences humaines; les résultats montrent une amélioration par rapport à tous les baselines téléchargeables et s’approchent des performances des modèles propriétaires plus grands. Apple Research
- L’étude souligne l’importance du feedback automatisé dans la génération de code UI et le potentiel de réduire la dépendance au feedback humain coûteux. Apple Research
Contexte et arrière-plan
Les développeurs s’appuient fréquemment sur des tutoriels ML et des codes générés lors du développement UI, mais les LLMs produisent souvent un code UI qui ne se compile pas ou qui ne reproduit pas fidèlement le design visuel. Le domaine évalue aussi les modèles à l’aide de signaux de préférences par paire, largement utilisés pour mesurer les progrès et guider le développement lorsque les métriques formelles sont difficiles à obtenir. Le travail UICoder propose ces signaux dans un flux de travail axé sur le feedback automatisé plutôt que sur l’étiquetage humain ou la distillation propriétaire. L’article a été accepté au VL/HCC 2024, soulignant le rôle des signaux automatisés dans l’amélioration du code UI généré par les LLMs. Apple Research
Ce qui est nouveau
UICoder introduit une boucle d’auto-amélioration qui part d’un LLM existant et produit progressivement des modèles plus compétents pour générer du code UI. Les éléments clés sont :
- Données synthétiques auto-générées : le LLM de base produit un vaste jeu de données UI.
- Filtrage et scoring automatisés : des vérifications de compilateur et une analyse multimodale filtrent et classent les données pour en améliorer la qualité.
- Dés-duplication : les duplications sont retirées pour réduire les redondances et le surapprentissage.
- Affinage : on affilie le LLM initial sur le jeu affiné pour obtenir un générateur de code UI plus performant.
- Évaluation ouverte : la méthode a été appliquée à plusieurs LLMs open-source et comparée à des baselines à la fois par métriques automatiques et préférences humaines.
- Résultats compétitifs : les modèles obtenus surpassent tous les baselines téléchargeables et approchent les performances des modèles propriétaires plus grands. Apple Research | Aspect | Baselines | UICoder (modèle final) |---|---|---| | Source de données pour l’amélioration | Données standard ou annotées par humains | Données synthétiques auto-générées et affinées par outils automatisés |Filtrage | Limité ou inexistant | Filtrage agressif, attribution de score et dés-duplication |Évaluation | Mététriques automatiques et/ou préférence humaine limitée | Mététriques automatiques + préférences humaines |Open-Source | Appliqué à quelques LLMs open-source | Appliqué à plusieurs LLMs open-source |Performance vs propriétaires | Généralement en retrait | Dépasse les baselines téléchargeables et s’approche des modèles propriétaires plus grands |
Pourquoi c’est important (impact pour les développeurs/entreprises)
Pour les développeurs créant des interfaces utilisateur riches, UICoder montre une voie pour générer du code UI de meilleure qualité sans dépendre de feedback humain coûteux ou de distillation de modèles propriétaires. En tirant parti d’un feedback automatisé et de données auto-générées, des organisations peuvent améliorer des modèles open-source pour rivaliser plus près avec des modèles plus vastes et fermés, réduisant le temps de mise sur le marché des composants UI. L’approche insiste sur la reproductibilité et l’évolutivité pour les équipes qui veulent faire évoluer leurs pipelines de code UI avec moins d’étiquetage manuel. Apple Research
Détails techniques ou Mise en œuvre
- Boucle de base et amélioration : démarrer avec un LLM existant et générer un grand jeu de données synthétiques de code UI via le modèle lui-même.
- Outils de feedback automatisés : vérifications de compilation et analyses multimodales pour filtrer, attribuer des scores et dédupliquer les données, guidant l’entraînement ultérieur.
- Affinage des données : suppression des duplications et sélection soignée du corpus pour former un ensemble d’entraînement de haute qualité.
- Ajustement fin : affiner le LLM initial avec le jeu affiné pour produire un generateur de code UI plus performant.
- Cadre d’évaluation : comparaison des modèles affiné avec des baselines via métriques automatiques et préférences humaines pour capturer à la fois la qualité objective et l’adéquation esthétique des tâches UI. Apple Research
Points clés
- Le feedback automatisé peut guider les LLMs à produire un code UI plus fiable que des baselines reposant sur des signaux humains ou statiques.
- Un cycle d’auto-amélioration permet une génération et un raffinage rapide des données sans étiquetage manuel constant.
- Les LLMs open-source peuvent combler partiellement l’écart avec les modèles propriétaires quand ils sont associés à un filtrage automatisé, une évaluation rigoureuse et un affinement minutieux.
- L’évaluation combinant métriques automatiques et préférences humaines offre un signal plus riche pour la qualité du code UI.
- L’approche est conçue pour être reproductible sur différents LLMs open-source et tâches de génération de code UI. Apple Research
FAQ
Références
More news
Shadow Leak montre comment les agents ChatGPT peuvent exfiltrer des données Gmail via injection de prompt
Des chercheurs en sécurité ont démontré une attaque par injection de prompt baptisée Shadow Leak, utilisant Deep Research de ChatGPT pour exfiltrer discrètement des données d'une boîte Gmail. OpenAI a corrigé la faille; l'affaire illustre les risques des IA agentisées.
Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo
NVIDIA Dynamo déporte le KV Cache depuis la mémoire GPU vers un stockage économique, permettant des contextes plus longs, une meilleure concurrence et des coûts d’inférence réduits pour les grands modèles et les charges AI génératives.
Détection et réduction de scheming dans les modèles d IA : progrès, méthodes et implications
OpenAI et Apollo Research ont évalué le désalignement caché dans des modèles de frontière, observé des comportements de scheming et testé une méthode d’alignement délibératif qui a réduit les actions covertes d’environ 30x, tout en reconnaissant des limites et des travaux en cours.
Autodesk Research mène la CFD à vitesse Warp sur le NVIDIA GH200
Autodesk Research, Warp de NVIDIA et le GH200 démontrent une CFD Python-native avec XLB, atteignant environ 8x de vitesse et évoluant jusqu’à 50 milliards de cellules.
Réduire la latence de démarrage à froid pour l’inférence LLM avec NVIDIA Run:ai Model Streamer
Analyse approfondie sur la façon dont NVIDIA Run:ai Model Streamer abaisse les temps de démarrage à froid pour l’inférence des LLM en diffusant les poids vers la mémoire GPU, avec des benchmarks sur GP3, IO2 et S3.
Simplifier l accès aux changements de contenu ISO-rating avec Verisk Rating Insights et Amazon Bedrock
Verisk Rating Insights, propulsé par Amazon Bedrock, LLM et RAG, offre une interface conversationnelle pour accéder aux changements ERC ISO, réduisant les téléchargements manuels et accélérant les informations fiables.