Skip to content
Apprentissage profond pour le séquençage de cellule unique : un microscope pour voir la diversité des cellules
Source: thegradient.pub

Apprentissage profond pour le séquençage de cellule unique : un microscope pour voir la diversité des cellules

Sources: https://thegradient.pub/deep-learning-for-single-cell-sequencing-a-microscope-to-uncover-the-rich-diversity-of-individual-cells, thegradient.pub

TL;DR

  • L’apprentissage profond aide à gérer la complexité, le bruit et la sparsitété des données de séquençage de cellule unique (sc-seq).
  • Les autoencodeurs (AE) sont largement utilisés pour la réduction de dimensionalité non linéaire et le regroupement afin d’identifier des types cellulaires ou des sous-populations.
  • L’intégration multimo­dale et la transcriptomique spatiale (SRT) élargissent les connaissances en préservant le contexte spatial et en combinant les modalities dans la même cellule.
  • L’écosystème sc-seq se développe rapidement, illustré par l’Human Cell Atlas et un paysage d’outils scRNA-seq en plein essor.
  • L’apprentissage multi-vues et les approches DL favorisent l’intégration de mesures cellule par cellule et les analyses multimodales.

Contexte et historique

L’histoire de chaque être vivant est écrite dans son génome, stocké sous forme d’ADN et présent dans presque chaque cellule. Bien que de nombreuses cellules partagent le même ADN et le même type cellulaire, elles diffèrent par les régulateurs qui contrôlent l’expression de l’ADN. Le génome humain compte environ 3 milliards de paires de bases sur 23 chromosomes et environ 20 000 à 25 000 gènes codant des protéines, représentant environ 1% du génome. Pour explorer le fonctionnement de systèmes biologiques complexes, notamment cette portion codante, une méthode de séquençage précise est nécessaire, et le sequencing d’ARN à cellule unique (scRNA-seq) répond à cet objectif. En 2013, Nature a nommé le séquençage d’ARN à cellule unique Méthode de l’Année, soulignant son importance pour étudier l’hétérogénéité cellulaire par le séquençage de l’ADN et de l’ARN à l’échelle de la cellule. Depuis lors, de nombreux outils ont émergé pour l’analyse des données scRNA-seq; par exemple, la base de données scRNA-tools suit les logiciels depuis 2016 et comptait plus de 1 000 outils en 2021. Parmi ces outils, beaucoup utilisent des techniques d’Apprentissage Profond (DL), qui seront au cœur de cet article. Les cellules, unités fondamentales du corps, contiennent trois couches d’information génétique : ADN, ARN et protéine. L’ADN est transcrit en ARN, puis l’ARN est traduit en protéine. L’ARN sert de messager entre ADN et protéine. Même avec l’ADN identique, les cellules diffèrent par l’activation ou la désactivation génétique. Les données sc-seq se représentent sous forme de matrice : chaque ligne est une cellule étiquetée par un barcode, chaque colonne est un gène, et les valeurs indiquent les niveaux d’expression du gène dans cette cellule. Le Human Cell Atlas (HCA) représente une initiative internationale visant à cartographier toutes les cellules du corps humain, comme une carte des identités et des relations cellulaires. Depuis plus d’un siècle, les biologistes veulent identifier tous les types de cellules et les classer. Le scRNA-seq a ouvert un nouveau chapitre dans l’étude des transcriptomes cellulaires. Le domaine a évolué vers l’intégration multimodale, combinant données du génome, épigénome et protéome dans la même cellule, ce qui nécessite des modèles sophistiqués comme l’apprentissage multi-vues. La transcriptomique spatiale (SRT) a été reconnue comme une solution cruciale pour préserver le contexte spatial lors de l’étude de systèmes biologiques complexes, en réponse au manque d’information spatiale après dissociation des cellules. L’apprentissage profond est de plus en plus utilisé dans l’analyse sc-seq en raison de sa capacité à extraire automatiquement des caractéristiques pertinentes à partir de données complexes, tout en gérant la hétérogénéité et le bruit.

Ce qui est nouveau

Trois raisons principales motivent l’utilisation du DL dans le séquençage de cellules uniques :

  • Le DL peut extraire automatiquement des motifs pertinents dans des données extrêmement hétérogènes, bruyantes et sparsifiées, réduisant le besoin d’ingénierie manuelle de caractéristiques.
  • Les modèles non linéaires révèlent des relations que les méthodes linéaires (comme la PCA) pourraient manquer, améliorant l’identification des types et états cellulaires.
  • Les cadres DL soutiennent l’intégration multimo­dale et l’analyse de données provenant de mesures multiples dans la même cellule, y compris via SRT. Parmi les architectures DL, les autoencodeurs (AE) se distinguent pour l’analyse des données sc-seq. Les AE sont largement utilisés pour la réduction de dimensionalité non linéaire et pour regrouper les cellules dans l’espace réduit, facilitant l’identification des types cellulaires ou des sous-populations. En comparaison de méthodes non DL comme la PCA, les AE peuvent capturer des correspondances non linéaires, révélant des relations subtiles dans la genomique cellulaire. Le domaine évolue aussi vers des analyses multimodales et spatiales, portées par SRT et l’apprentissage multi-vues pour l’intégration des mesures cellulaires.

Pourquoi c’est important (impact pour les développeurs/entreprises)

Pour les chercheurs et les développeurs, le DL offre une voie vers des analyses scalables et robustes de jeux de données cellulaires de plus en plus volumineux et complexes. Les méthodes DL réduisent la dépendance à l’ingénierie manuelle des caractéristiques, gèrent l’hétérogénéité entre expériences et offrent des représentations plus riches pour des tâches en aval comme l’annotation des types cellulaires et la découverte de sous-populations rares. Pour les entreprises, ces capacités se traduisent par des découvertes de biomarqueurs plus fiables, une meilleure compréhension des réponses cellulaires à des traitements et l’accélération du développement de thérapies et diagnostics basés sur les cellules. L’écosystème continue de croître rapidement, avec un nombre croissant d’outils scRNA-seq et des initiatives atlas à grande échelle, ouvrant des opportunités de collaboration, standardisation et intégration de données entre laboratoires et industries.

Détails techniques ou Mise en œuvre

Les données de séquençage de cellule unique se présentent sous forme de matrice, où chaque ligne est une cellule étiquetée par un barcode et chaque colonne est un gène. Les valeurs indiquent l’expression de l’ARN pour chaque gène dans une cellule. Deux directions DL clés sont visibles :

  • Autoencodeurs pour réduction de dimensionnalité non linéaire et clustering, en préservant l’hétérogénéité des données.
  • Approches multimodales et spatiales, incluant l’apprentissage multi-vues pour intégrer des données entre modalités et préserver les informations spatiales via la transcriptomique spatiale (SRT). Ci-dessous, une comparaison concise d’approches représentatives dans ce domaine : | Technique | Objectif | Avantage |--- |--- |--- |Autoencodeurs (AE) | Réduction de dimensionnalité non linéaire pour données sc-seq | Préserve l’hétérogénéité et révèle des relations non linéaires; facilite le clustering |PCA | Réduction de dimension linéaire | Simple et rapide; référence de base |Apprentissage multi-vues | Intègre des mesures multimodales | Analyse conjointe de plusieurs modalités dans la même cellule | Le Human Cell Atlas sert de cadre de cartographie des informations cellulaires, tandis que la base scRNA-tools suit les logiciels pour l’analyse des données de cellule unique, illustrant un écosystème en croissance. Le domaine est passé du premier article scRNA-seq en 2009 à des reconnaissances Nature (Méthode de l’Année 2013 pour scRNA-seq et 2019 pour les approches multimodales) et à la SRT nommée Méthode de l’Année 2020. Les références à ces développements se trouvent dans The Gradient qui présente une vue d’ensemble sur l’apprentissage profond pour le séquençage de cellule unique : https://thegradient.pub/deep-learning-for-single-cell-sequencing-a-microscope-to-uncover-the-rich-diversity-of-individual-cells.

Points clés

  • Le DL permet des analyses robustes de données sc-seq complexes, bruyantes et sparses.
  • Les autoencodeurs sont des outils privilégiés pour une réduction non linéaire et le regroupement des cellules.
  • L’intégration multimodale et la SRT étendent le champ d’application des études sc-seq.
  • L’écosystème des outils sc-seq croît rapidement, avec des projets atlas et des options logicielles variées.
  • L’apprentissage multi-vues et les cadres DL soutiennent l’intégration des mesures et modalities cellulaires diverses.

FAQ

  • - **Q : Qu’est-ce que le séquençage à cellule unique (sc-seq) ?**

    Le sc-seq analyse l’expression des gènes au niveau cellule par cellule, permettant d’étudier l’hétérogénéité et l’activité des gènes dans différentes cellules. - **Q : Pourquoi utiliser l’apprentissage profond dans sc-seq ?** **A :** Le DL peut extraire automatiquement des motifs pertinents dans des données complexes, traitant l’hétérogénéité et le bruit sans nécessiter une ingénierie complexe des caractéristiques. - **Q : Quel est le rôle des autoencodeurs dans ce domaine ?** **A :** Les autoencodeurs servent à la réduction de dimensionnalité non linéaire et au regroupement des cellules, aidant à identifier les types cellulaires ou sous-populations. - **Q : En quoi l’intégration multimodale améliore-t-elle les recherches sc-seq ?** **A :** Elle permet de mesurer et d’intégrer différentes modalités (génome, épigénome, protéome) dans la même cellule, améliorant les compréhensions de l’identité et de l’état cellulaire. - **Q : Qu’est-ce que la transcriptomique spatiale (SRT) et pourquoi est-elle importante ?** **A :** La SRT préserve les informations spatiales pendant le profiling des transcriptomes, permettant des analyses contextualisées au tissu et comblant le manque d’information spatiale lors de la dissociation cellulaire.

Références

More news