UICoder: Ajuste fino de Grandes Modelos de Linguagem para Gerar Código de UI com Feedback Automatizado
Sources: https://machinelearning.apple.com/research/uicoder, machinelearning.apple.com
TL;DR
- Feedback automatizado de compiladores e ferramentas multimodais guia modelos de linguagem grande (LLMs) para gerar código de UI que compila e está alinhado com designs visuais. UICoder
- A workflow começa com um LLM base, cria iterativamente um grande conjunto de dados sintéticos, filtra e elimina duplicatas com ferramentas automatizadas e, por fim, faz o fine-tuning do modelo original com os dados refinados. UICoder
- Aplicado a vários LLMs de código aberto, o approach supera todos os baselines baixáveis e se aproxima do desempenho de modelos proprietários maiores. UICoder
- O trabalho se insere no contexto da VL/HCC 2024, destacando avanços na geração de código para UI usando feedback automatizado. UICoder
Contexto e antecedentes
Modelos de linguagem grande (LLMs) têm mostrado grande capacidade para gerar código, mas ainda enfrentam dificuldades para produzir código de UI que compile de forma confiável e que corresponda a designs visuais. Abordagens tradicionais costumam depender de feedback humano caro ou de destilações de modelos proprietários, o que pode limitar o acesso e a velocidade de iteração. O UICoder aborda essa lacuna ao usar sinais de feedback automatizados—compiladores e modelos multimodais—para guiar os LLMs em direção a código de UI de maior qualidade. A ideia é iniciar com um LLM existente para gerar um grande conjunto de dados sintéticos; esse conjunto passa por filtragem, pontuação e deduplicação automatizadas para formar um corpus de treinamento mais confiável. O LLM original é então ajustado com esse conjunto refinado, resultando em modelos aprimorados. A avaliação abrange vários LLMs de código aberto, com comparação frente a baselines via métricas automatizadas e preferências humanas. UICoder Em termos de avaliação, a pesquisa observa que preferências par a par (pairwise) sobre respostas de modelos são um sinal de feedback comum—útil para medir progresso quando métricas fixas tradicionais são difíceis de obter. O trabalho também se insere na comunidade de interfaces visuais e computação centrada no humano, com a VL/HCC 2024 como o ponto de aceitação. Esses elementos ajudam a entender a relevância do feedback automatizado para geração de código de UI e o potencial de reduzir dependências de anotação humana dispendiosa. UICoder
O que há de novo
O UICoder apresenta um fluxo de trabalho prático que começa de um LLM existente e usa esse modelo para gerar um grande conjunto de dados sintéticos. Em seguida, são aplicadas ferramentas automatizadas para filtrar, pontuar e eliminar duplicatas, produzindo um conjunto de dados de alta qualidade para treino. O LLM original é fine-tuned com esse conjunto refinado, gerando variações de modelo aprimoradas. Ao testar em vários LLMs de código aberto, os modelos ajustados superam todos os baselines baixáveis e se aproximam do desempenho de modelos proprietários maiores. O trabalho enfatiza que o aprimoramento vem por meio de sinais de feedback automatizados—compiladores e modelos multimodais—em vez de depender apenas de feedback humano ou de distilação proprietária. UICoder
Visão rápida do fluxo de implementação
| Aspecto | Feedback automático para ajuste Fino | Modelos de referência (baseline) |---|---|---| | Geração de dados | Conjunto de dados sintéticos gerado pelo próprio LLM | Dados manuais ou dados abertos sem filtragem automatizada estruturada |Processamento de dados | Filtragem agressiva, pontuação e deduplicação via ferramentas automatizadas | Filtragem automatizada mínima; maior dependência de curadoria humana |Atualização do modelo | Fine-tuning do LLM base sobre dados refinados | Baselines estáticos ou distilação proprietária |Avaliação | Métricas automatizadas mais preferências humanas | Apenas métricas automatizadas ou avaliações humanas isoladas |Resultado | Supera baselines baixáveis; aproxima-se de modelos proprietários maiores | Desempenho inferior, especialmente em código de UI específico |
Por que isso importa (impacto para desenvolvedores/empresas)
Para equipes que desenvolvem ferramentas de geração de código voltadas para UI, o UICoder oferece um caminho para melhorar a confiabilidade e a qualidade do código gerado sem depender de feedback humano caro ou de modelos proprietários de grande porte. Ao alavancar ciclos de feedback automatizados, organizações podem melhorar iterativamente LLMs de código aberto, obtendo melhor sucesso na compilação e maior alinhamento com a intenção de design. Essa abordagem pode reduzir o tempo de entrega de componentes de UI e ampliar o acesso a ferramentas de IA para codificação de UI em diferentes cenários de implantação. UICoder
Detalhes técnicos ou Implementação
A ideia central é iniciar com um LLM existente e aproveitá-lo para gerar um grande conjunto de dados sintéticos. Ferramentas automatizadas—especificamente compiladores e modelos de avaliação multimodais—são então usadas para filtrar, pontuar e deduplicar esse conjunto de dados, formando um corpus refinado de alta qualidade para treinamento. O LLM original é, em seguida, ajustado com esse conjunto refinado, gerando variantes do modelo com desempenho aprimorado. Os autores aplicaram essa pipeline a vários LLMs de código aberto e realizaram uma avaliação comparativa frente a baselines usando dois tipos de sinal: métricas automatizadas e preferências humanas. Os resultados indicam que os modelos ajustados superam todos os baselines baixáveis e se aproximam do desempenho de modelos proprietários maiores. O trabalho também enfatiza o papel das preferências par a par como sinal útil de feedback em domínios onde métricas fixas são difíceis de obter, ilustrando como esse conceito complementa a pontuação automatizada em tarefas de geração de código de UI. UICoder
Destaques de implementação
- Inicie com um LLM base adequado para geração de código UI e para experimentação.
- Gere um grande conjunto de dados sintéticos permitindo que o próprio modelo proponha amostras de código UI.
- Aplique avaliação automatizada: compiladores verificam a validade sintática e a executabilidade do código, enquanto modelos multimodais avaliam a fidelidade visual aos requisitos de UI.
- Filtre dados de baixa qualidade, atribua pontuações e reduza duplicatas para criar um conjunto de treinamento mais limpo.
- Finetune o LLM com o conjunto refinado para produzir variantes aprimoradas.
- Avalie usando métricas automatizadas e preferências humanas para obter uma visão abrangente de desempenho. UICoder
Principais conclusões
- Sinais de feedback automatizados podem orientar LLMs a gerar código de UI de maior qualidade, com compilação confiável e melhor correspondência a designs visuais.
- Um fluxo de dois passos — geração de dados sintéticos seguido de filtragem automatizada e deduplicação — pode produzir um conjunto de dados de treino refinado que melhora o desempenho do modelo quando utilizado para fine-tuning.
- A abordagem mostra promissora aplicação em vários LLMs de código aberto, Elevando o desempenho rumo aos modelos proprietários maiores.
- Preferências par a par, juntamente com métricas automatizadas, fornecem um caminho de avaliação complementar quando métricas tradicionais são difíceis de obter para código de UI.
- O trabalho foi apresentado na VL/HCC 2024 e está alinhado com esforços contínuos para aprimorar a geração de código de UI assistida por ML por meio de feedback automatizado. UICoder
FAQ
-
Que problema o UICoder aborda?
LLMs lutam para gerar código de UI que compile de forma confiável e corresponda a designs visuais; o UICoder utiliza feedback automatizado de compiladores e ferramentas multimodais para guiar melhorias do modelo.
-
Como o UICoder melhora os modelos?
Começa com um LLM base para gerar um grande conjunto de dados sintéticos, aplica filtragem, pontuação e deduplicação automatizadas e faz o fine-tuning do LLM original com os dados refinados.
-
Como foi a avaliação?
Foi testado em vários LLMs de código aberto, com comparação frente a baselines usando métricas automatizadas e preferências humanas; os resultados mostram melhorias sobre baselines baixáveis e aproximação do desempenho de modelos proprietários maiores.
-
Onde e quando este trabalho foi apresentado?
O trabalho foi aceito na VL/HCC 2024, com referências à data de 25 de julho de 2025 em materiais relacionados. [UICoder](https://machinelearning.apple.com/research/uicoder)
Referências
More news
Shadow Leak mostra como agentes do ChatGPT podem exfiltrar dados do Gmail via injeção de prompt
Pesquisadores de segurança demonstraram uma injeção de prompt chamada Shadow Leak que usou o Deep Research do ChatGPT para extrair dados de uma caixa de entrada do Gmail. OpenAI corrigiu a falha; o caso destaca riscos de IA com atuação autônoma.
Como reduzir gargalos do KV Cache com NVIDIA Dynamo
O Dynamo da NVIDIA transfere o KV Cache da memória da GPU para armazenamento de custo mais baixo, permitindo janelas de contexto maiores, maior concorrência e menor custo de inferência em grandes modelos.
Deteção e redução de scheming em modelos de IA: avanços, métodos e implicações
OpenAI e Apollo Research avaliaram desalineação oculta em modelos de fronteira, observaram comportamentos de scheming e testaram um método de alinhamento deliberativo que reduziu ações encobertas em cerca de 30x, com limitações e trabalhos em andamento.
Reduzindo a Latência de Cold Start para Inferência de LLM com NVIDIA Run:ai Model Streamer
Análise detalhada de como o NVIDIA Run:ai Model Streamer reduz o tempo de cold-start na inferência de LLMs ao transmitir pesos para a memória da GPU, com benchmarks em GP3, IO2 e S3.
Autodesk Research Revoluciona CFD com Warp no NVIDIA GH200
Autodesk Research, NVIDIA Warp e GH200 mostram CFD baseado em Python com XLB: ~8x de velocidade, até 50 bilhões de células e desempenho próximo a soluções OpenCL/C++.
Otimize o acesso a alterações de conteúdo ISO-rating com Verisk Rating Insights e Amazon Bedrock
Verisk Rating Insights, impulsionado pelo Amazon Bedrock, LLMs e RAG, oferece uma interface conversacional para acessar mudanças ERC ISO, reduzindo downloads manuais e aumentando a velocidade e a precisão das informações.