Arc Virtual Cell Challenge : Un primer sur la généralisation de contexte en transcriptomique

TL;DR

Le Arc Institute lance le Virtual Cell Challenge qui demande de former un modèle capable de prédire l’effet du silence d’un gène dans des types de cellules non vus, un but appelé généralisation de contexte.
L’ensemble de données réunit environ 300k profils de transcriptomique d’ARNR à cellule unique; l’ensemble d’entraînement comprend 220k cellules, dont environ 38k sont des contrôles non perturbés.
Arc a publié STATE, une baseline solide composée de deux modèles basés sur des transformeurs : le State Transition Model (ST) et le State Embedding Model (SE).
L’évaluation porte sur Perturbation Discrimination, Differential Expression et Mean Average Error, avec PDiscNorm défini comme 1 - 2 * PDisc.
L’objectif est d’accélérer les tests in silico des perturbations et potentiellement d’accélérer la recherche biologique et la découverte de médicaments en réduisant les boucles de rétroaction.

Contexte et arrière-plan

Arc Institute a récemment dévoilé le Virtual Cell Challenge. Les participants doivent entraîner un modèle capable de prédire l’effet de faire taire un gène dans un type cellulaire (partiellement) non vu, une tâche qu’ils nomment généraleisation du contexte. Pour les ingénieurs ML n’ayant qu’une connaissance limitée en biologie, le défi est présenté de manière accessible : former un modèle qui peut prédire ce qui arrive à une cellule lorsque l’on modifie un paramètre. Pour entraîner le réseau, Arc a constitué un jeu de données d’environ 300k profils deRNA à cellule unique (scRNA-seq). L’ensemble d’entraînement contient 220k cellules, et parmi elles environ 38k sont des cellules témoins non perturbées. Chaque cellule est représentée par son transcriptome, un vecteur creux dont chaque entrée correspond au compte brut de molécules d’ARN du gène concerné. Le gène TMSB4X est donné comme exemple : lorsque ce gène est silencé, le nombre de transcrits chute par rapport au contrôle. Le phénomène d’observateur fait qu’il est difficile de mesurer l’état avant et après perturbation, et l’entrée est donc faite à partir d’un ensemble basal (contrôles) comme référence et il faut discriminer le signal réel de la perturbation du bruit dû à l’hétérogénéité. Le modèle est formulé pour prendre en compte ces aspects. Avant le Virtual Cell Challenge, Arc a publié STATE, leur tentative de solution utilisant un couple de modèles transformeurs. STATE comprend le State Transition Model (ST) et le State Embedding Model (SE). ST est le « simulateur de cellule » qui prend soit le transcriptome d’un contrôle, soit une embedding produite par SE, avec un vecteur de perturbation (one-hot), et produit le transcriptome perturbé. ST est un transformateur avec un backbone Llama et exploite des ensembles de contrôle covariés pour aider l’identification de l’effet de perturbation. Chaque tenseur (contrôle et perturbation) passe par des encodeurs indépendants, qui sont des MLPs à 4 couches avec activations GELU. Si l’on travaille dans l’espace d’expression des gènes, on passe par un décodeur appris. ST est entraîné avec Maximum Mean Discrepancy pour aligner les distributions. SE, un autoencoder type BERT, crée des embeddings cellulaires significatifs. Pour produire un embedding d’un gène, on obtient la séquence en acides aminés de toutes les isoformes protéiques codées par le gène (ex. SDKPDMAEI pour TMSB4X), on les passe à ESM, un modèle de langage protéique de 15 milliards de paramètres. ESM produit un embedding par acide aminé, que l’on pool ensuite pour obtenir un embedding de protéine isoformale, puis on projette ces embeddings de gènes dans l’espace du modèle via un encodeur appris. La cellule est représentée par une « phrase cellulaire » composée des embeddings des 2048 gènes les plus exprimés. On ajoute un token [CLS] et un token [DS] ; le token [CLS] devient l embedding de la cellule. Pour moduler l’expression, un mécanisme d’encodage d’expression, semblable à des embeddings positionnels, ajoute des encodages d’expression basés sur une algorithme de « soft binning » et 2 MLPs. Les 2048 gènes forment une séquence qui sert de base à l embedding celular. Pendant l’entraînement, 1280 gènes par cellule sont masqués et le modèle est chargé de les prédire. L’évaluation inclut des métriques similaires à celles décrites ci-dessus. Ces éléments proviennent de la publication d’Arc décrivant STATE et son rôle en tant que baseline pour le Virtual Cell Challenge. Hugging Face Blog

What’s new

La publication de STATE fournit une baseline concrète pour le Virtual Cell Challenge, composée de deux modules : State Transition Model (ST) et State Embedding Model (SE).

ST est un transformateur avec un backbone Llama. Il reçoit des entrées de contrôle covariées et de perturbation cible, chaque entrée étant encodée par des MLPs de 4 couches avec des activations GELU. Si l’on opère dans l’espace d’expression génétique, ST utilise un décodeur appris pour générer le transcriptome perturbé. L’entraînement s’effectue avec Maximum Mean Discrepancy pour minimiser les différences entre les distributions prévues et réelles.
SE est un autoencodeur de type BERT qui produit des embeddings de cellules et de gènes significatifs. Les embeddings de gènes proviennent des séquences d’acides aminés des isoformes protéiques, traitées par ESM2 et agglomérées pour former les embeddings de gènes, puis projetées dans l’espace du modèle par un encodeur appris. La cellule est représentée par une phrase de 2048 gènes et les tokens [CLS] et [DS] servent à isoler les effets propres au jeu de données.
L’objectif est de capturer les relations biologiques entre l’expression des gènes et les isoformes proteiques pour améliorer la généralisation across cell types.
L’entraînement masque 1280 gènes par cellule et vise à prédire ces gènes alons. L’évaluation suit les métriques énoncées.

Item	Valeur
Taille du jeu de données	~300k profils scRNA-seq
Cibles d’entraînement	220k
Células de contrôle non perturbées	~38k
Ces chiffres illustrent la balance entre échelle et capacité à isoler les signaux de perturbation des effets basal.

Why it matters (impact pour les développeurs/entreprises)

Le Virtual Cell Challenge s’attaque à un goulot d’étranglement majeur : tester des perturbations génétiques sans expériences en laboratoire. Un modèle capable de simuler les conséquences de silençement de gènes à travers des types cellulaires peut réduire le temps et les coûts associés à la sélection des perturbations et à l’interprétation de leurs effets. Cela peut accélérer la génération d’hypothèses et guider la conception expérimentale. L’approche STATE montre comment combiner des embeddings de gènes et de protéines avec des transformeurs pour améliorer la généralisation contextuelle dans un espace riche et bruité biologiquement.

Détails techniques ou Mise en œuvre

Les points techniques principaux de STATE et de son cadre général :

Le jeu de données contient l’expression observée dans des cellules perturbées et de contrôle, et l’expression est modélisée comme X^p ∼ T^p(D_basal) + H(D_basal) + ε. Les états perturbés prévus ^X_p proviennent soit d’un transcriptome de contrôle, soit d’une embedding produite par SE, associée à un vecteur de perturbation.
State Transition Model (ST) : transformateur avec un backbone Llama. Chaque entrée (contrôle et perturbation) est encodée séparément via des encodeurs MLP à 4 couches avec GELU. Si l’on travaille dans l’espace d’expression génique, un décodeur appris prédit le transcriptome perturbé. L’entraînement utilise Maximum Mean Discrepancy pour rapprocher les distributions.
State Embedding Model (SE) : un autoencodeur type BERT qui produit des embeddings significatifs. Les embeddings de gènes proviennent des séquences d’aminoacides des isoformes, traitées par ESM2 (réseau de langue protéique de 15 milliards de paramètres). Les embeddings d’isoformes sont agrégés pour former un embedding de gène, puis projetés dans l’espace du modèle par un encodeur. La cellule est représentée par une phrase de 2048 gènes et des tokens [CLS] et [DS] servent à dissocier les effets liés au jeu de données. Une réponse d’expression est modulée via une encodage d’expression avec une technique de binning doux et 2 MLPs.
Construction de la représentation cellulaire : la cellule est représentée par les embeddings des 2048 gènes les plus exprimés, formant une phrase qui est traitée par un modèle de type Transformer afin d’obtenir une représentation sémantique.
Entraînement et masquage : 1280 gènes par cellule sont masqués et le modèle doit les prédire.
Évaluation : PDisc et les autres métriques sont calculés comme décrit ci-dessus. Hugging Face Blog

Points clés

Le Virtual Cell Challenge formalise la généralisation du contexte pour les perturbations cellulaires, en visant des types cellulaires non vus.
Le jeu de données combine contrôles et états perturbés pour mettre à l’épreuve la séparation du signal de perturbation et l’hétérogénéité basal.
STATE fournit une baseline combinant embeddings de gènes et de protéines avec des transformeurs pour favoriser la généralisation à travers les types cellulaires.
Les métriques d’évaluation sont conçues pour mesurer à la fois la précision prédictive et la pertinence biologique.
L’objectif est de démocratiser les tests in silico de perturbations et d’améliorer le processus de prise de décision expérimentale.

FAQ

Qu’est-ce que le Virtual Cell Challenge ?

Un défi d’Arc Institute pour former un modèle capable de prédire la réponse d’une cellule à l’extinction d’un gène, même dans des types cellulaires non vus (généralisation de contexte).
Comment fonctionne STATE ?

STATE combine ST (transformateur simulant la cellule) et SE (autoencodeur d’embeddings). ST utilise des contrôles covariés et un vecteur de perturbation pour prédire le transcriptome perturbé et est entraîné avec Maximum Mean Discrepancy; SE génère des embeddings de gènes et de cellules via des embeddings de protéines et une représentation de cellule basée sur [CLS].
uelles métriques sont utilisées pour évaluer les prédictions ?

Perturbation Discrimination, Differential Expression et Mean Average Error, avec PDiscNorm converti en 1 - 2 * PDisc.
Où puis-je lire davantage sur le défi ?

Le billet officiel de Hugging Face sur le Virtual Cell Challenge présente les détails. [Hugging Face Blog](https://huggingface.co/blog/virtual-cell-challenge)

References

Hugging Face Blog – Arc Virtual Cell Challenge: A Primer. https://huggingface.co/blog/virtual-cell-challenge

Arc Virtual Cell Challenge : Un primer sur la généralisation de contexte en transcriptomique

TL;DR

Contexte et arrière-plan

What’s new

Why it matters (impact pour les développeurs/entreprises)

Détails techniques ou Mise en œuvre

Points clés

FAQ

References

More news

Scaleway rejoint les Fournisseurs d’Inference de Hugging Face pour une Inférence Serverless et Faible Latence

Rendez vos ZeroGPU Spaces plus rapides avec la compilation AoT de PyTorch

Rendez vos ZeroGPU Spaces plus rapides avec la compilation AoT de PyTorch

Générez des images avec Claude et Hugging Face : connexion via MCP et Spaces

Nemotron Nano 2: modèle ouvert de raisonnement en tête du classement, débit 6x supérieur

De Zéro au GPU : construire et déployer des noyaux CUDA production-ready avec Kernel Builder