PLAID: Geração multimodal de proteínas por difusão latente

Visão Geral

PLAID é um modelo gerativo multimodal que gera simultaneamente a sequência 1D de proteínas e a estrutura 3D, aprendendo o espaço latente de modelos de dobramento de proteínas. O trabalho contextualiza o papel cada vez maior da IA na biologia, citando o reconhecimento do AlphaFold2; pergunta o que vem depois da dobragem. PLAID aprende a amostrar do espaço latente de modelos de dobramento para gerar novas proteínas e pode responder a prompts compostos que especificam função e organismo. Importante: o treinamento pode ocorrer apenas com dados de sequência, uma vez que bases de dados de sequências são muito maiores que as de estruturas. A ideia central é fazer difusão no espaço latente de um modelo de dobramento em vez de difusão diretamente em espaço de sequências ou estruturas. Após amostrar esse espaço de proteínas válidas, o modelo decodifica sequência e estrutura usando pesos congelados de um modelo de dobramento. Na prática, PLAID utiliza o ESMFold — sucessor do AlphaFold2 que substitui uma etapa de recuperação por um modelo de linguagem de proteínas — como decodificador estrutural durante a inferência. Essa configuração aproveita priors aprendidos pelos modelos de dobramento pré-treinados para tarefas de design proteico, enquanto o treinamento utiliza apenas sequências. Um aspecto notável da abordagem é lidar com a alta dimensionalidade dos espaços latentes de modelos baseados em transformadores. Para lidar com isso, é proposto o CHEAP (Compressed Hourglass Embedding Adaptations of Proteins), que aprende um modelo de compressão para a incorporação conjunta de sequência e estrutura. Os autores encontram esse espaço latente fortemente compressível e, por meio de interpretabilidade, demonstram geração atômica completa em certos casos. Embora o foco seja geração sequência-estrutura, o método pode ser adaptado para geração multimodal em outros domínios onde exista um preditor de uma modalidade mais abundante para uma menos abundante. PLAID também oferece uma interface de controle por prompts, inspirada em como a geração de imagens é guiada por constraints textuais. O objetivo final é controle total por texto, mas a interface atual suporta restrições compostas em dois eixos: função e organismo. Os autores demonstram capacidades como aprender padrões de coordenação tetraédricos de metaloproteínas (por exemplo, ligação de cysteína-Fe2+/Fe3+) mantendo diversidade em nível de sequência. Comparações com baselines de estruturas atômicas mostram que PLAID tende a oferecer maior diversidade e capturar padrões de beta-helix com mais facilidade. Caso se tenha interesse em colaborar ou testar o método no wet-lab, os autores convidam contato. Eles também disponibilizam preprints e bases de código para PLAID e CHEAP, citando as referências.

Principais características

Geração multimodal: co-criação de sequências e coordenadas estruturais atômicas
Fluxo de difusão latente: amostra do espaço latente de um modelo de dobramento, depois decodifica
Treinamento em sequências apenas: aproveita grandes bases de dados de sequências (2–4 ordens de magnitude maiores que as de estruturas)
Decodificação com pesos congelados: a estrutura é decodificada a partir da embedding amostrada usando pesos congelados do ESMFold
Compressão CHEAP: aprende uma compressão do embedding conjunto sequência-estrutura
Prompts de função e organismo: controle por entradas compostas
Interpretabilidade e motifização: análise de canais latentes e padrões emergentes (ex.: motivos de coordenação)
Diversidade: amostras de PLAID mostram diversidade maior e melhor recaptura de motivos em comparação a alguns baselines
Extensibilidade: abordagem pode ser adaptada para geração multimodal em domínios com preditor entre modalidades
Integração com priors existentes: tira proveito de priors de modelos de dobramento pré-treinados

Casos de uso comuns

Design de proteínas com função e organismo desejados (por exemplo, metalo proteínas com motivos ativos específicos)
Exploração de espaços de design multimodais solicitando função ou espécie para direcionar a amostragem
Geração de candidatos com sequência e estrutura diversificados que respeitem a relação função-estrutura aprendida pelo espaço latente
Estender a geração multimodal para sistemas mais complexos (como complexos proteicos ou interações com ligantes ou ácidos nucleicos), aproveitando avanços em preditores de dobra
Aproveitar grandes dados de sequência para treinar modelos que generalizam para geração de estruturas por meio de representações latentes

Configuração & Instalação

Não fornecido na fonte.

# Configuração e instalação não fornecidas na fonte.

Quick start

Observação: este é um exemplo ilustrativo baseado nos princípios de PLAID; APIs e runtimes exatos dependem dos códigos liberados.

# PLAID quick-start (ilustrativo)
# Este exemplo mostra o fluxo pretendido, não é um código de execução pronto.
# 1) Amostra um embedding latente a partir do difusor
z = sample_latent_embedding()
# 2) Decode sequence e estrutura usando pesos congelados do ESMFold
sequence = decode_sequence_from_embedding(z)
structure = decode_structure_from_embedding(z, frozen_weights="ESMFold")
print(sequence)
print(structure)

Prós e contras

Prós
Geração conjunta de sequência e estrutura com prompts funcionais/organizacionais
Leva em conta bases de dados de sequência em grande escala, aproveitando dados abundantes
Decodificação de estrutura com pesos congelados de dobramento, reduzindo necessidade de treinar módulos de estrutura
CHEAP aborda compressão de representações conjuntas, tornando o modelo mais viável
Demonstra controle por prompts compostos, com potencial para controle textual completo no futuro
Evidencia diversidade e recaptura de motivos que alguns baselines têm dificuldade em capturar
Contras
Espaços latentes de transformadores podem ser grandes e exigir regularização
O sucesso depende da qualidade dos priors de dobramento subjacentes e da compatibilidade entre sequências e estruturas
A aplicabilidade prática depende de exposição a prompts funcionais/organismos variados e decodificação robusta de estruturas complexas
A extensão para modalidades adicionais ainda é uma área ativa de desenvolvimento

Alternativas (comparação breve)

| Abordagem | Modalidade | Pontos fortes | Limitações |---|---|---|---| | PLAID | Sequência + estrutura | Geração multimodal com difusão latente; treino em sequências | Depende de um modelo de dobramento como backbone; qualidade depende da regularização latente |Geradores tradicionais de estrutura | Estrutura apenas | Realismo estrutural forte com priors de dobramento | Não gera sequência nem oferece controle multimodal explicitamente |Modelos apenas de sequência | Sequência apenas | Ampla cobertura de dados de sequência | Sem geração direta de coordenadas estruturais sem preditor adicional |

Licença ou Preços

Detalhes de licenciamento ou preços não são especificados na fonte.

Referências

PLAID: Repurposing Protein Folding Models for Generation with Latent Diffusion — BAIR Blog, http://bair.berkeley.edu/blog/2025/04/08/plaid/
Preprints e bases de código para PLAID e CHEAP são mencionados na fonte; URLs explícitos não foram fornecidos aqui.