Arc Virtual Cell Challenge: Um Guia sobre Generalização de Contexto na Transcriptômica

TL;DR

O Arc Institute lança o Virtual Cell Challenge, que exige treinar um modelo capaz de prever o efeito de silenciar um gene em tipos celulares não vistos, um objetivo chamado generalização de contexto.
O conjunto de dados reúne aproximadamente 300 mil perfis de RNA de célula única (scRNA-seq); o conjunto de treinamento conta com 220 mil células, das quais cerca de 38 mil são células de controle não perturbadas.
O Arc publicou o STATE, uma linha de base forte com dois modelos baseados em transformadores: o State Transition Model (ST) e o State Embedding Model (SE).
A avaliação foca em Perturbation Discrimination (Discriminação de Perturbações), Differential Expression (Expressão Diferencial) e Mean Average Error (Erro Médio Absoluto), com PDiscNorm definido como 1 - 2 * PDisc.
O objetivo é acelerar testes in silico de perturbações, potencialmente impulsionando pesquisas biológicas e descoberta de fármacos ao reduzir o ciclo de feedback.

Contexto e antecedentes

O Arc Institute anunciou recentemente o Virtual Cell Challenge. Os participantes devem treinar um modelo capaz de prever o efeito de silenciar um gene em um tipo celular (parcialmente) não visto, uma tarefa que eles chamam de generalização de contexto. Para engenheiros de ML com pouco conhecimento de biologia, o desafio pode parecer técnico, então é apresentado de forma acessível: treinar um modelo para prever como uma célula reage a uma perturbação por CRISPR. Para treinar a rede neural, o Arc compilou um conjunto de dados com aproximadamente 300 mil perfis de RNA de célula única (scRNA-seq). O conjunto de treinamento contém 220 mil células, e entre elas cerca de 38 mil são células de controle não perturbadas. Cada célula é representada por seu transcriptoma, que é um vetor esparso onde cada entrada é a contagem bruta de moléculas de RNA correspondentes ao gene. Um exemplo concreto no conjunto é o gene TMSB4X, o mais frequentemente silenciado. Observações mostram que células com silenciamento de TMSB4X apresentam um número de transcrições reduzido em relação às células de controle. Devido ao efeito do observador, medir o estado da célula antes e depois da perturbação destrói a célula, então usamos células basais como referência e precisamos separar o sinal verdadeiro da perturbação do ruído provocado pela heterogeneidade basal. Modelos formais descrevem a expressão gênica observada em células perturbadas como X^p ∼ T^p(D_basal) + H(D_basal) + ε, com termos de ruído para capturar heterogeneidade. Antes do Virtual Cell Challenge, o Arc já havia disponibilizado o STATE, uma linha de base que usa dois modelos transformatores. O STATE é composto pelo State Transition Model (ST) e pelo State Embedding Model (SE). O ST funciona como um “ simulador de células” que recebe a transcriptômica de uma célula de controle ou uma embedding produzida pelo SE, junto com um vetor de perturbação one-hot, e devolve o transcriptoma perturbado. O ST usa um transformador com backbone Llama e um conjunto de controles covariáveis pareados para auxiliar na identificação do efeito da perturbação. Os tensores de controle e perturbação passam por codificadores independentes (MLPs de 4 camadas com ativação GELU). Se trabalhar no espaço de expressão gênica, o ST passa por um decodificador aprendido. O ST é treinado com a técnica de Maximum Mean Discrepancy, ou seja, minimiza a diferença entre distribuições de probabilidade. O SE é um autoencoder tipo BERT com o objetivo de criar embeddings semânticos significativos de células. Para produzir um embedding de gene, obtém-se a sequência de aminoácidos de todas as isoformas proteicas codificadas pelo gene (por exemplo, SDKPDMAEI para TMSB4X) e alimenta essas sequências no ESM2, um modelo de linguagem de proteína com 15 bilhões de parâmetros. O embedding de isoforma é agregado (mean pool) para obter um embedding de gene. Esse gene embedding é projetado para o espaço do modelo por meio de um codificador aprendido. Em seguida, representamos cada célula como uma frase de 2048 genes mais tokens [CLS] e [DS]. O token [CLS] termina sendo usado como o embedding da célula. O token [DS] destina-se a dissociar efeitos específicos do conjunto de dados. A magnitude da expressão gênica é reforçada com uma técnica de codificação de expressão que envolve uma “soft binning” e duas MLPs, modulando as embeddings de cada gene conforme a expressão no transcriptoma. A célula é então reconstruída a partir desses componentes. Durante o treinamento, 1280 genes por célula são mascarados e o modelo é treinado para prevê-los. Essa estratégia visa promover generalização quando se lida com tipos celulares não vistos. Para avaliação, o Arc utiliza três métricas: Perturbation Discrimination, Differential Expression e Mean Average Error. Perturbation Discrimination avalia quão bem o modelo captura diferenças relativas entre perturbações, calculando as distâncias de Manhattan entre transcriptomas perturbados previstos e os perturbados reais, e ordenando em relação ao transcriptoma de referência. A pontuação final de Perturbation Discrimination é normalizada em PDiscNorm = 1 - 2 * PDisc. Differential Expression avalia a fração de genes realmente afetados que o modelo identifica como significativamente afetados, calculando p-valores com o teste de Wilcoxon estratificado por distribuição prevista e aplicando a correção Benjamini-Hochberg para múltiplos testes. Estas métricas ajudam a medir tanto a precisão quanto a relevância biológica das previsões. Estas informações derivam do post oficial da Hugging Face sobre o Virtual Cell Challenge. Hugging Face Blog

What’s new

A divulgação do STATE oferece uma linha de base concreta para o Virtual Cell Challenge, consistindo de dois módulos: State Transition Model (ST) e State Embedding Model (SE).

ST é descrito como um transformador com backbone Llama. Processa um conjunto de controle covariável pareado com uma perturbação alvo, cada qual codificado por MLPs de 4 camadas com ativações GELU. Se operando na espacial de expressão gênica, ST usa um decodificador aprendido para gerar o transcriptoma perturbado. O treinamento utiliza Maximum Mean Discrepancy para minimizar a diferença entre distribuições previstas e reais.
SE é um autoencoder tipo BERT que cria embeddings de células e de genes significativos. Em termos de genes, usa as sequências de aminoácidos das isoformas proteicas, processadas pelo ESM2, para compor embeddings de isoformas, que são agregados para formar embeddings de genes. As embeddings de genes são projetadas para o espaço do modelo por meio de um codificador aprendido. A célula é representada por uma sentença de 2048 genes, com [CLS] como embedding da célula e [DS] para dissociar efeitos do conjunto de dados.
A combinação ST+SE busca capturar informações transcriptômicas e proteômicas para uma integração robusta, com foco na generalização entre tipos celulares.
O treinamento de máscara (masking) envolve 1280 genes por célula para que o modelo aprenda a prever expressões faltantes, reforçando a capacidade de generalização. A avaliação utiliza as métricas descritas acima para quantificar a qualidade das predições. Uma síntese dos dados-chave do STATE e do conjunto de dados do Virtual Cell Challenge pode ser vista na tabela a seguir. | Item | Valor |--- |--- |Tamanho do conjunto de dados | ~300k perfis de RNA de célula única |Células de treinamento | 220k |Células de controle (não perturbadas) | ~38k | Esses valores ilustram o equilíbrio entre escala de dados e a necessidade de isolar sinais de perturbação da heterogeneidade basal. A abordagem integra representações transcriptômicas e embeddigs de isoformas proteicas para apoiar a generalização entre tipos celulares.

Why it matters (impacto para desenvolvedores/empresas)

O Virtual Cell Challenge aborda um gargalo central em biologia e descoberta de fármacos: testar perturbações genéticas sem experimentos de bancada. Um modelo capaz de simular as consequências de silenciamento gênico em diferentes tipos celulares pode reduzir o tempo e o custo de triagem de perturbações, bem como orientar o desenho experimental ao destacar perturbações com efeitos previsíveis entre tipos celulares. A linha STATE demonstra como uma combinação de arquiteturas de transformadores, embeddings de genes e proteínas, e dissociação de sinais específicos do conjunto de dados pode apoiar a generalização de contexto em um cenário de alta dimensionalidade com ruído biológico. Esse tipo de trabalho está alinhado com tendências mais amplas de experimentar in silico para reduzir a dependência de ensaios físicos, mantendo relevância biológica.

Detalhes técnicos ou Implementação

A seguir estão notas técnicas centrais da linha STATE conforme descrita pelo Arc:

O conjunto de dados contém expressão gênica observada em células perturbadas e de controle, com a expressão modelada como uma combinação de T^p(D_basal), H(D_basal) e ε. As predicções de estados perturbados ^X_p resultam de entrada a partir de transcriptomas de controle ou de embeddings gerados pelo SE, mais um vetor de perturbação.
State Transition Model (ST): um transformador com backbone Llama. Processa dois inputs através de codificadores independentes (control e perturbação), cada um com MLPs de 4 camadas e GELU. Quando operando em espaço de expressão gênica, utiliza um decodificador para gerar o transcriptoma perturbado. O treinamento usa Maximum Mean Discrepancy para alinhar as distribuições previsas com as reais.
State Embedding Model (SE): um autoencoder tipo BERT que produz embeddings de célula e de genes significativos. Embeddings de genes derivam de sequências de aminoácidos de isoformas proteicas processadas pelo ESM2 (13-15 bilhões de parâmetros, conforme descrito). Os embeddings de isoformas são agregados para formar embeddings de genes, que são projetados para o espaço do modelo por meio de um codificador aprendido. A embedding de célula é construída a partir de uma sentença de 2048 genes, com o token [CLS] servindo como embedding da célula e [DS] para dissociar efeitos do conjunto de dados. A magnitude de expressão é modulada por uma codificação de expressão que usa uma curvar de binning suave com duas MLPs.
Construção da representação da célula: cada célula é representada por 2048 genes com suas embeddings; a sentença da célula é alimentada a um modelo tipo Transformer para fornecer uma compreensão semântica da célula.
Treinamento e mascaramento: 1280 genes por célula são mascarados e o modelo deve prever esses genes.
Avaliação: como descrito acima, com Perturbation Discrimination, Differential Expression e MAE para medir a qualidade das previsões. Hugging Face Blog

Key takeaways

O Virtual Cell Challenge formaliza a generalização de contexto para perturbações celulares com foco em tipos não vistos.
O conjunto de dados, com controle e estados perturbados, enfatiza a separação entre sinal real da perturbação e heterogeneidade basal.
STATE oferece uma linha de base que integra embeddings de genes/proteínas (via ESM2) com uma arquitetura de transformadores para melhor generalização entre tipos celulares.
As métricas de avaliação combinam precisão de predição com relevância biológica, incluindo discriminação de perturbações e expressões diferenciais significativas.
A iniciativa pode acelerar testes in silico de perturbações e orientar decisões experimentais na pesquisa biomédica.

FAQ

O que é o Virtual Cell Challenge?

Um desafio do Arc Institute para treinar um modelo que prevê como uma célula responde ao silenciamento de um gene, mesmo em tipos celulares não vistos durante o treinamento (generalização de contexto).
Como o STATE opera?

STATE combina ST (transformador que simula a célula) e SE (autoencoder de embeddings). ST usa controles covariáveis pareados e uma perturbation vector para prever o transcriptoma perturbado, treinado com Maximum Mean Discrepancy; SE gera embeddings de células e genes a partir de isoformas proteicas via ESM2 e incorpora um [CLS] que representa a célula.
uais métricas são usadas para avaliação?

Perturbation Discrimination (discriminar perturbações), Differential Expression (genes afetados significativos) e Mean Average Error (erro médio). A normalização PDiscNorm é 1 - 2 * PDisc.
Onde posso ler mais sobre o desafio?

O blog da Hugging Face dedicado ao Arc Virtual Cell Challenge fornece detalhes oficiais. [Hugging Face Blog](https://huggingface.co/blog/virtual-cell-challenge)

References

Hugging Face Blog – Arc Virtual Cell Challenge: A Primer. https://huggingface.co/blog/virtual-cell-challenge

Arc Virtual Cell Challenge: Um Guia sobre Generalização de Contexto na Transcriptômica

TL;DR

Contexto e antecedentes

What’s new

Why it matters (impacto para desenvolvedores/empresas)

Detalhes técnicos ou Implementação

Key takeaways

FAQ

References

More news

Scaleway Como Novo Fornecedor de Inferência no Hugging Face para Inferência serverless de Baixa Latência

Faça seus ZeroGPU Spaces trabalharem rápido com compilação ahead-of-time do PyTorch

Faça seus ZeroGPU Spaces ficarem mais rápidos com compilação AoT do PyTorch

Gerar imagens com Claude e Hugging Face: ferramentas de IA fáceis de usar

Nemotron Nano 2 Open 9B para Raciocínio lidera ranking com 6x de Throughput

Do Zero à GPU: Construindo e escalando Kernels CUDA de produção com Kernel-Builder