«Notre objectif, à terme, est de comprendre comment des maladies se déclarent dans les cellules individuelles»

Les techniques modernes d’imagerie et de séquençages, combinées à l’apprentissage automatique, offrent aujourd’hui d’innombrables possibilités inédites aux chercheurs pour scruter l’intérieur des cellules avec une précision jamais vue jusqu’ici et visualiser certains processus de régulation. Mais que faire des gigantesques quantités de données que leur utilisation génère? Dans le cadre de deux publications dans Nature Communications, G.V. Shivashankar, directeur du Laboratoire de biologie à l’échelle nanométrique à l’Institut Paul Scherrer PSI et professeur de mécanogénomique à l’ETH Zurich, présente des méthodes pour combiner les données à l’aide de l’apprentissage automatique, et trouver ainsi des réponses à certaines questions biomédicales urgentes. Il nous explique comment cela fonctionne dans l’interview ci-après.

G.V. Shivashankar, directeur du Laboratoire de biologie à l'échelle nanométrique de l'Institut Paul Scherrer
(Photo: Institut Paul Scherrer/Markus Fischer)

G.V. Shivashankar, tout le monde parle d’une explosion des données: tous les deux ans environ, la quantité de données sauvegardées double dans le monde. Dans le domaine scientifique, les choses ne sont pas différentes. Dans votre domaine de recherche, qu’est-ce qui génère cette importante quantité de données?

G.V. Shivashankar: En partie l’analyse et le séquençage du matériel génétique de cellules individuelles. Autrefois, quand on analysait un échantillon de sang, par exemple, on combinait l’information de plusieurs millions de cellule en une valeur moyenne. Mais aujourd’hui, avec la médecine personnalisée, ces données moyennes ne suffisent plus: on cherche à mesurer chaque cellule individuelle pour comprendre ce qu’elle fait. Au cours des dernières années, on a développé des techniques pour générer toutes les données possibles au niveau de la cellule individuelle: des images, des données ADN, la totalité des protéines présentes dans la cellule, etc.

Pourquoi a-t-on besoin de ces informations pour chaque cellule individuelle?

Parce que les cellules sont toutes différentes, même lorsqu’elles font partie du même type et sont situées dans le même tissu. La manière dont le matériel génétique est lu dépend largement du micro-environnement de la cellule.

Mais pourquoi? La lecture de l’ADN ne dépend-elle pas avant tout du matériel génétique, des différents gènes?

C’est ce que nous avons cru pendant longtemps. Mais au cours des 10 à 15 dernières années, il est devenu clair que la manière dont le matériel génétique est empaqueté dans le noyau cellulaire est décisive, elle aussi. Elle détermine la manière dont le matériel génétique est lu. Et également la manière dont certaines maladies se développent dans les différents tissus.

Comment est-ce possible?

L’ADN qui se trouve dans chacune de nos cellules mesure un mètre de long et est empaqueté dans un petit noyau cellulaire de quelque 10 micromètres seulement, soit un centième de millimètre. La rigidité du tissu, des tensions ou encore d’autres propriétés du micro-environnement peuvent modifier la manière dont l’ADN est empaqueté. Nombre de maladies inhérentes à l’âge sont précisément liées à cela. Un empaquetage anormal de l’ADN joue même un rôle dans le développement de certaines maladies dégénératives et du cancer.

Mais peut-on «mesurer» la manière dont l’ADN est empaqueté?

C’est justement là que les choses deviennent intéressantes. Il y a quelques années, nous avons développé l’hypothèse suivante: si l’on comprend comment l’ADN est empaqueté, on peut même prédire le comportement d’une cellule et les gènes qu’elle lit. Pour étudier cette hypothèse, nous utilisons l’imagerie: nous réalisons des images des cellules dans leur environnement naturel, par microscopie optique, par exemple, et nous essayons de déduire de ces images la manière dont l’ADN est empaqueté, pour ensuite coupler cette variable avec le fonctionnement de la cellule.

J’imagine que, pour ce faire, vous n’examinez pas vous-mêmes des milliers d’images de cellules.

Non, en effet. Nous utilisons l’apprentissage automatique en collaboration avec Caroline Uhler du Massachusetts Institute of Technology aux Etats-Unis, l’un des laboratoires phare dans ce domaine. Nous extrayons ainsi les informations importantes des images de cellules et de tissus à différents stades fonctionnels. La questions décisive, lors de ce travail, est la suivante: quelles sont les différentes caractéristiques des divers stades? Nous espérons être ainsi en mesure de distinguer entre les états normaux et les états anormaux d’une cellule.

Comment est-ce que cela fonctionne en pratique?

Chaque image d’un noyau cellulaire possède des milliers de caractéristiques: grain, luminosité et intensité dans différentes régions, mais aussi des particularités géométriques, par exemple des structures allongées ou rondes. Tous ces éléments fournissent des indications sur la manière dont l’ADN est empaqueté. L’apprentissage automatique nous permet d’obtenir des informations sur ces caractéristiques et de les comprendre. Pour pouvoir utiliser ultérieurement les informations contenues dans les images, nous devons par ailleurs les représenter sous une forme simplifiée. Nous disons que nous les «amenons dans une dimension plus basse».

Et est-ce que vous avez finalement réussi à tirer des conclusions sur le fonctionnement des cellules à partir des images?

Oui, nous sommes en mesure de tirer des conclusions sur le fonctionnement des cellules à partir des images, en les mettant en relation avec les profils d’expression des gènes. Nous avons développé une nouvelle méthode d’apprentissage automatique à cet effet. Elle permet la traduction des données multidomaines, et nous permet aussi de fusionner des données de différents types, par exemple des données d’imagerie et des données de séquençage d’une cellule. Autrement dit des données qu’à ce jour on ne peut pas mesurer de manière expérimentale dans la même cellule. Dans ce cas précis, nous avons reproduit des milliers de cellules T, ces cellules immunitaires qui se trouvent dans notre sang. Nous avons utilisé notre méthode de l’apprentissage automatique pour mettre en relation la manière dont l’ADN était empaqueté dans ces cellules avec les données des cellules individuelles des mêmes populations cellulaires, des profils d’expression qui montrent quels gènes sont lus. Notre objectif était de répondre à la question suivante: si une partie du matériel génétique est empaquetée de manière plus dense, ces mêmes gènes sont-ils alors inactivés? Selon notre hypothèse, les régions empaquetées de manière plus dense ne sont pas lues, pour la simple et bonne raison qu’elles sont moins accessibles.

Et cette hypothèse s’est confirmée?

Oui, et nous avons finalement réussi à prédire sur cette base quels gènes seraient lus, uniquement à partir de la manière dont l’ADN était empaqueté, sans mesurer les gènes proprement dits. C’est un progrès important pour la discipline, car le séquençage au niveau de la cellule individuelle est coûteux et il est souvent plus facile de réaliser des images des cellules individuelles. Mais surtout, ces images de cellules sont réalisées dans le micro-environnement dans les tissus.

Quelles sont les applications médicales de la mécanogénomique et des méthodes de l’apprentissage automatique?

Dans le cadre d’autres travaux, nous avons récemment montré qu’il est possible de les combiner pour trouver de nouveaux médicaments. Ou, plus précisément, pour identifier des principes actifs déjà sur le marché qui sont efficaces contre d’autres maladies. Des maladies auxquelles on n’avait absolument pas pensé lors de l’homologation de ces médicaments. Nous avons par exemple cherché des principes actifs déjà connus susceptibles d’être efficaces contre Covid-19. Nous pensons que si une infection avec Sars-CoV-2 affecte beaucoup plus gravement les personnes âgées, c’est parce que leurs cellules sont plus âgées et donc plus rigides. Le virus peut donc intervenir de manière particulièrement efficace dans les voies de signal et mieux proliférer dans ces cellules. Nous avons donc cherché à savoir s’il existait déjà sur le marché des principes actifs qui ramènent pour ainsi dire une cellule âgée infectée à son état normal pré-infectieux? 

Comment vous y êtes-vous pris pour identifier ces principes actifs potentiels contre Covid-19?

Nous avons examiné comment la lecture des gènes se modifiait lorsque des cellules étaient infectées avec Sars-CoV-2. Nous avons par ailleurs utilisé CMap, une banque de données où sont stockées, pour des milliers de composés chimiques, les modifications que ceux-ci induisent au niveau de la lecture du patrimoine génétique dans les cellules. Nous avons réuni toutes ces informations et identifié deux groupes de principes actifs potentiels, susceptibles d’annuler l’effet de Sars-CoV-2. Ces principes actifs bloquent certaines enzymes dans la cellule et devraient donc être utiles aux patients Covid-19 âgés.

Allez-vous tester cette hypothèse en laboratoire ou sur des patients?

Etonnamment, nous avons découvert que, pour l’un des groupes de médicaments, des essais cliniques étaient déjà en cours avec des patients Covid-19. L’industrie pharmaceutique est probablement arrivée à la même idée que nous par un autre biais. Nous saurons donc bientôt si ces médicaments sont bel et bien utiles.

Comment ces nouvelles méthodes peuvent-elles faire avancer la médecine personnalisée?

Un exemple: en collaboration avec le Centre de protonthérapie du PSI, nous démarrons un projet pour développer un biomarqueur qui indique dans quelle mesure la protonthérapie en cours est efficace. Notre hypothèse est la suivante: les cellules sanguines des patients cancéreux reçoivent des signaux émanant de cellules tumorales. Sur ce, les cellules sanguines modifient la structure de leur ADN et lisent d’autres gènes. Notre idées est donc d’analyser des échantillons de sang prélevés chez des patients traités par protonthérapie au PSI. Puis nous utiliserons la structure d’empaquetage de l’ADN dans les cellules sanguines comme biomarqueur pour évaluer le succès du traitement chez un patient. Cela pourra peut-être offrir une possibilité d’adapter le traitement de manière plus précise en fonction des résultats.

En matière de science des données, quelle sera la prochaine grande étape dans votre domaine de spécialité?

Notre objectif, à terme, est de comprendre comment des maladies se déclarent dans les cellules individuelles, au sein du micro-environnement d’un tissu. Nous en sommes encore loin. Mais si l’on veut pouvoir intervenir très précocement en termes thérapeutique, cette compréhension est décisive. Lorsqu’on considère toutes les protéines d’une cellule, c’est comme avec Google Earth: il y a beaucoup trop d’informations en même temps. Les méthodes de la science des données peuvent s’avérer très utiles pour nous aider à comprendre ce qui se passe dans l’ensemble. 

Interview: Institut Paul Scherrer/Brigitte Osterath

Informations supplémentaires

Interview de G.V. Shivashankar. Pourquoi le Covid-19 frappe si durement les personnes âgées

Contact

Prof. G.V. Shivashankar
Division de recherche Biologie et Chimie
Institut Paul Scherrer, Forschungsstrasse 111, 5232 Villigen PSI, Suisse
Téléphone:
+41 56 310 42 50, e-mail: gv.shivashankar@psi.ch [anglais]

Originalveröffentlichung

Multi-Domain Translation between Single-Cell Imaging and Sequencing Data using Autoencoders
K. D. Yang, A. Belyaeva, S. Venkatachalapathy, K. Damodaran, A. Radhakrishnan, A. Katcoff, G.V. Shivashankar, C. Uhler
Nature Communications, 4 janvier 2021 (en ligne)
DOI: 10.1038/s41467-020-20249-2

Causal Network Models of SARS-CoV-2 Expression and Aging to Identify Candidates for Drug Repurposing
A. Belyaeva, L. Cammarata, A. Radhakrishnan, C. Squires, K. D. Yang, G.V. Shivashankar, C. Uhler

Nature Communications, sous presse

Droit à l'utilisation

Le PSI fournit gratuitement des images et/ou du matériel vidéo pour la couverture médiatique du contenu du texte ci-dessus. L'utilisation de ce matériel à d'autres fins n'est pas autorisée. Cela inclut également le transfert des images et du matériel vidéo dans des bases de données ainsi que la vente par des tiers.