Un changement fondamental

Les grandes installations de recherche du PSI fournissent énormément de données, que ce soit le laser à rayons X à électrons libres suisse SwissFEL ou la Source de Lumière Suisse SLS, surtout après la mise à niveau SLS 2.0. L’intelligence artificielle facilite leur exploitation efficace et aide à épuiser tout le potentiel de ces installations pour la recherche.

Data Science IA

Les protéines sont les bêtes de somme du vivant. Ces minuscules machines moléculaires sont présentes dans toutes les cellules et impliquées dans la quasi-totalité des processus biologiques, du métabolisme à la communication cellulaire. Leur diversité est immense: à lui seul, le corps humain renferme des centaines de milliers de protéines différentes, dont chacune assume une fonction propre. Ce sont aussi des cibles importantes pour les médicaments: comprendre leur structure et leur fonction représente une tâche essentielle en biologie. En développant des médicaments, le défi est de trouver une substance active qui interagisse, si possible, avec un seul type de protéine – et non avec tous les autres.

Pour réussir un tel tour de force, il faut d’abord comprendre le langage des protéines. Ce dernier est une espèce d’alphabet de vingt composants comparables à des lettres: les acides aminés. Chaque protéine contient une chaîne ordonnée d’acides aminés, qui détermine à son tour une grande partie de ses propriétés. Actuellement, les scientifiques cherchent à savoir quelle séquence protéique mène à quelle propriété. C’est là qu’interviennent les grands modèles linguistiques («large language models») à la GPT4. Le chatbot d’IA ChatGPT, qui fait sensation depuis 2022, est fondé sur GPT4. Tous deux ont été développés par la société Open-AI. ChatGPT puise dans un vaste ensemble de données – issues de textes rédigés par des humains – pour apprendre les modèles et les structures du langage. Lorsque l’utilisateur saisit une question ou une tâche, le modèle produit une réponse fondée sur sa compréhension du contexte et sur les modèles appris pendant l’entraînement. Il est ainsi capable d’écrire des poèmes, des romans et même du code de programmation.

Flurin Hidber, un doctorant supervisé par Xavier Deupi, lui-même expert en bio-informatique et en structure des protéines au PSI, utilise l’IA dans ses travaux de recherche sur les protéines. Il se sert d’un modèle sophistiqué qui ressemble à ChatGPT. Mais au lieu de produire un langage de type humain, celui-ci est entraîné à prédire les acides aminés dans des séquences protéiques. Cette capacité unique imite non seulement la puissance des modèles linguistiques d’IA, mais elle fournit également de précieuses informations sur la structure et la fonction des protéines. Les pharmaciens pourraient y recourir en vue d’adapter les médicaments et de raccourcir considérablement le long processus d’essais et d’erreurs en laboratoire, au terme duquel seule une petite part des substances actives candidates présente des propriétés prometteuses.

Un objectif ambitieux

Xavier Deupi et Flurin Hidber poursuivent donc un objectif ambitieux: déterminer la séquence d’acides aminés précise qui conduit à la propriété protéique désirée. Les protéines photosensibles sont l’un des points principaux de leur recherche. Ce domaine de spécialité du groupe de Xavier Deupi fait aussi l’objet d’études au SwissFEL. Les protéines photosensibles se trouvent chez de nombreux organismes, des microbes à l’être humain, et recèlent un potentiel médical. Flurin Hidber se sert de l’IA pour prédire leurs propriétés sur la seule base de la séquence de leurs éléments constitutifs, ce qui représente une avancée significative. En déterminant notamment leurs propriétés d’absorption de la lumière, ses travaux pourraient ouvrir la voie au développement de molécules dotées de caractéristiques sur mesure. Une étape qui pourrait avoir de profonds effets sur l’optogénétique, technique scientifique utilisant la lumière pour contrôler et surveiller l’activité de certaines cellules dans des organismes vivants, comme les cellules nerveuses du cerveau. Les scientifiques introduisent des gènes qui y codent les protéines photosensibles afin d’influencer finement leur comportement en les exposant à la lumière. Cette technologie pourrait contribuer à la compréhension et au traitement des maladies neurologiques en fournissant un outil qui permettrait d’examiner et de contrôler l’activité de certaines cellules cérébrales avec une précision sans précédent. Pour l’avenir, Xavier Deupi et Flurin Hidber ont comme objectif d’inverser ce processus et de concevoir de nouvelles protéines dotées de propriétés adaptées à des besoins spécifiques: par exemple, répondre à une lumière d’une certaine couleur. Ce plan pourrait ensuite être vérifié expérimentalement en laboratoire et, ils l’espèrent, confirmé.

La dynamique des protéines est également au cœur des recherches de Cecilia Casadei. Cette physicienne a développé un nouvel algorithme pour exploiter avec plus d’efficacité les mesures effectuées au laser à rayons X à électrons libres SwissFEL. Les constituants du vivant exécutent souvent des mouvements ultrarapides. Le fait de pouvoir les observer précisément se révèle décisif pour mieux les comprendre. A long terme, cela fournira de précieuses informations sur les processus pathologiques et facilitera le développement de nouvelles approches médicales.

Exploiter les flashs extrêmement courts de rayons X

Le SwissFEL fournit des flashs de rayons X extrêmement intenses et courts qui permettent de mesurer ces mouvements ultrarapides de protéines. Celles-ci se présentent sous forme de cristaux. Leur structure se révèle dans ce qu’on appelle des diagrammes de diffraction, qui résultent de la disposition régulière des protéines dans le cristal et qui sont enregistrés par un détecteur. Mais les données relatives à un seul cristal ne contiennent que deux pour cent des informations d’un diagramme complet.

Pour contourner ce problème, elles sont normalement divisées en périodes temporelles approximatives et toutes celles d’une période sont moyennées. De nombreuses informations de détail sont alors perdues. «On pourrait dire que les images individuelles du film de protéines sont alors un peu floues, explique Cecilia Casadei. Nous avons donc développé une méthode qui permet d’obtenir davantage d’informations à partir des données de mesure.»

La nouvelle méthode que Cecilia Casadei et son équipe ont mise au point porte le nom de «low-pass spectral analysis» (LPSA). Par le biais d’équations mathématiques très complexes, les scientifiques suppriment le bruit indésirable des données, sans perdre pour autant les détails pertinents de la dynamique des protéines. Au lieu des diagrammes de diffraction flous, on peut réaliser ainsi des prises de vue nettes sur des laps de temps très courts, qui suivent le mouvement de la protéine en douceur et sans à-coup. L’effet est du même ordre que le passage d’un ancien téléviseur à tube cathodique à une vidéo en haute résolution.

«Le nouvel algorithme aide les scientifiques, au SwissFEL, à obtenir davantage d’informations à partir de leurs données», relève Cecilia Casadei. A l’inverse, l’algorithme peut contribuer à raccourcir les temps de mesure. Comme le temps de faisceau est toujours limité aux grandes installations de recherche en général, et au SwissFEL en particulier, c’est une perspective très bienvenue pour ceux qui font de la recherche dans le domaine des protéines et qui utilisent cette installation de pointe.

Avec le projet SLS 2.0, les scientifiques vont faire face à un nouveau défi. Après sa mise à niveau, la Source de Lumière Suisse SLS fournira, dès 2025, des quantités de données de mesure plusieurs fois supérieures à celles d’avant, que même des ordinateurs extrêmement puissants ne pourront guère traiter. L’apprentissage automatique jouera donc un rôle central. Pour la SLS 2.0, les scientifiques ont développé des algorithmes qui, à partir des valeurs de luminosité enregistrées par les détecteurs, déterminent rapidement les déphasages des rayons lumineux entrants et livrent ainsi des informations particulièrement précieuses sur l’échantillon. «Le PSI est leader mondial dans ce domaine», souligne Gebhard Schertler, responsable de la division de recherche Biologie et chimie au PSI.

Une autre force de l’apprentissage automatique est de combiner des données issues de différentes méthodes de mesure. Par exemple, on pourrait réaliser des images de noyaux cellulaires au microscope optique, tandis que les techniques radiographiques utilisées à la SLS 2.0 fournissent des images en haute résolution. L’IA pourrait combiner ces différentes données et les informations cliniques biochimiques des patients. Il n’est pas possible d’étudier une même cellule avec différentes méthodes analytiques, mais l’apprentissage automatique permet de synchroniser les ensembles de données des diverses méthodes. L’algorithme reconnaît les propriétés des cellules issues d’expériences distinctes. C’est presque comme si l’on avait étudié la même cellule avec toutes ces méthodes en même temps.

Les grandes installations de recherche restent indispensables

Les grandes installations de recherche, comme le SwissFEL ou la SLS, seront-elles bientôt superflues, lorsque tout pourra être étudié avec l’IA et l’apprentissage automatique? Xavier Deupi s’inscrit en faux contre cette idée: «Les grandes installations de recherche restent indispensables, même à l’ère de l’IA, insiste-t-il. Certes, les grands modèles linguistiques offrent de puissants outils pour l’analyse de données connues, mais ils ne sauraient remplacer la capacité à générer de nouvelles données fondamentales.»

La façon de faire de la science est en train de changer radicalement.

Xavier Deupi, groupe de recherche de théorie de la matière condensée

Néanmoins, l’IA fait désormais partie intégrante des dispositifs de recherche: de l’acquisition de connaissances extraites d’un grand nombre de publications scientifiques à la rédaction d’articles fondés sur des données expérimentales, en passant par la génération automatique de lignes de code. «Ces instruments font partie de notre routine quotidienne», confirme Flurin Hidber. Xavier Deupi, de son côté, souligne: «En dépit de ces progrès, des scientifiques expérimentés restent indispensables pour interpréter et discuter les résultats de manière critique.» Il l’admet, cependant: «Les jeunes chercheurs, comme Flurin, travaillent tout autrement que moi-même voici vingt ans. La manière de faire de la science a fondamentalement changé.»

Texte: Bernd Müller

© Le PSI fournit gratuitement des images et/ou du matériel vidéo pour la couverture médiatique du contenu du texte ci-dessus. L'utilisation de ce matériel à d'autres fins n'est pas autorisée. Cela inclut également le transfert des images et du matériel vidéo dans des bases de données ainsi que la vente par des tiers.

5232 — Le magazine de l'Institut Paul Scherrer PSI

Vers plus de savoir, rapidement, avec l’IA

01/2024

Contact

Dr. Xavier Deupi
Institut Paul Scherrer PSI

+41 56 310 33 37
xavier.deupi@psi.ch

À propos du PSI

L'Institut Paul Scherrer PSI développe, construit et exploite des grandes installations de recherche complexes et les met à la disposition de la communauté scientifique nationale et internationale. Les domaines de recherche de l'institut sont centrés sur des technologies d'avenir, énergie et climat, innovation santé ainsi que fondements de la nature. La formation des générations futures est un souci central du PSI. Pour cette raison, environ un quart de nos collaborateurs sont des postdocs, des doctorants ou des apprentis. Au total, le PSI emploie 2200 personnes, étant ainsi le plus grand institut de recherche de Suisse. Le budget annuel est d'environ CHF 420 millions. Le PSI fait partie du domaine des EPF, les autres membres étant l'ETH Zurich, l'EPF Lausanne, l'Eawag (Institut de Recherche de l'Eau), l'Empa (Laboratoire fédéral d'essai des matériaux et de recherche) et le WSL (Institut fédéral de recherches sur la forêt, la neige et le paysage). (Mise à jour: juin 2023)