Grundlegend anders

Grossforschungsanlagen am PSI wie der Schweizer Freie-Elektronen-Röntgenlaser SwissFEL und die Synchrotron Lichtquelle Schweiz SLS – insbesondere nach dem Upgrade SLS 2.0 – liefern unvorstellbar grosse Datenmengen. Künstliche Intelligenz hilft dabei, diese effizient auszuwerten und das volle Potenzial der Anlagen für die Forschung auszuschöpfen.

KI-Bildgeneration: © Studio HübnerBraun/Midjourney

Proteine sind die Arbeitspferde des Lebens. Als winzige molekulare Maschinen kommen sie in jeder Zelle vor und sind an fast allen biologischen Prozessen beteiligt – vom Stoffwechsel bis zur zellulären Kommunikation. Ihre Vielfalt ist gewaltig, denn allein im menschlichen Körper gibt es Hunderttausende verschiedener Proteine, von denen jedes seine eigene Funktion hat. Proteine sind wichtige Angriffspunkte für Medikamente, und das Verständnis ihrer Struktur und Funktion ist eine wichtige Aufgabe in der biologischen Forschung. Eine Herausforderung bei der Entwicklung von Medikamenten ist es, einen Wirkstoff zu finden, der möglichst nur mit einem Proteintyp interagiert und nicht mit allen anderen.

Um so ein Kunststück zu vollbringen, muss man zuerst die Sprache der Proteine verstehen. Grundlage dieser Proteinsprache ist eine Art Alphabet. Dieses besteht im Wesentlichen aus zwanzig Bausteinen, analog zu Buchstaben. Bei Proteinen handelt es sich jedoch nicht um Buchstaben, sondern um Aminosäuren. Jedes Protein besteht aus einer bestimmten Abfolge dieser Aminosäuren, die wiederum einen grossen Teil seiner Eigenschaften bestimmt. Forschende möchten nun gerne wissen, welche Proteinsequenz zu welcher Eigenschaft führt. Hier kommen neuerdings sogenannte Large Language Models à la GPT4 ins Spiel. Der KI-Chatbot ChatGPT, der seit 2022 für Furore sorgt, basiert auf GPT4. Beide wurden von dem Unternehmen Open-AI entwickelt. ChatGPT verwendet einen umfangreichen Datensatz aus Texten, die von Menschen erstellt wurden, um die Muster und Strukturen der Sprache zu lernen. Wenn der Benutzer eine Frage oder Aufgabe eingibt, erzeugt das Modell eine Antwort, die auf seinem Verständnis des Kontexts und den Mustern basiert, die es während des Trainings gelernt hat. So kann es Gedichte, Romane und sogar Programmiercode schreiben.

Flurin Hidber, ein Doktorand, der von Xavier Deupi, einem Experten für Bioinformatik und Proteinstruktur am PSI, betreut wird, setzt KI in der Proteinforschung ein. Hidber verwendet ein ausgeklügeltes Modell, das ChatGPT ähnelt. Doch statt eine menschenähnliche Sprache zu erzeugen, wird es darauf trainiert, Aminosäuren in Proteinsequenzen vorherzusagen. Diese einzigartige Fähigkeit ahmt nicht nur die Vorhersagefähigkeiten von Sprachmodellen in der KI nach, sondern liefert auch wertvolle Erkenntnisse über die Struktur und Funktion von Proteinen. Pharmazeuten könnten damit dann Medikamente massschneidern und den aufwendigen Prozess von Versuch und Irrtum im Labor, bei dem am Ende nur ein kleiner Teil der untersuchten Wirkstoffkandidaten vielversprechende Eigenschaften aufweisen, deutlich abkürzen.

Xavier Deupi (links) und Flurin Hidber aus der Forschungsgruppe Theorie kondensierter Materie wollen besser verstehen, wie die Funktion mit der Struktur von Proteinen zusammenhängt. Im Visier haben sie vor allem lichtempfindliche Proteine. © Paul Scherrer Institut/Markus Fischer; KI-Bildgeneration: Studio HübnerBraun/Midjourney

Ein ehrgeiziges Ziel

Deupi und Hidber arbeiten deshalb auf ein ehrgeiziges Ziel hin: die genaue Aminosäuresequenz zu bestimmen, die zu einer gewünschten Proteineigenschaft führt. Ein Schwerpunkt ihrer Forschung sind lichtempfindliche Proteine, ein Spezialgebiet von Deupis Gruppe und ein Forschungsgegenstand am SwissFEL. Diese Proteine kommen in einer Vielzahl von Organismen vor, von Mikroben bis zum Menschen, und haben medizinisches Potenzial. Hidbers Einsatz von KI zur Prognose der Eigenschaften lichtempfindlicher Proteine allein auf der Grundlage der Sequenz ihrer Bausteine stellt einen bedeutenden Fortschritt auf diesem Gebiet dar. Durch die genaue Vorhersage der Lichtabsorptionseigenschaften von Proteinen könnte Hidbers Arbeit den Weg für die Entwicklung von Molekülen mit massgeschneiderten Eigenschaften ebnen – ein Schritt, der tiefgreifende Auswirkungen auf die Optogenetik haben könnte. Dabei handelt es sich um eine wissenschaftliche Technik, bei der mithilfe von Licht die Aktivität bestimmter Zellen in lebenden Organismen wie etwa Nervenzellen im Gehirn gesteuert und überwacht wird. Die Forschenden schleusen Gene für lichtempfindliche Proteine in diese Zellen ein, sodass sie das Verhalten der Zellen präzise beeinflussen können, indem sie sie mit Licht bestrahlen. Diese Technologie könnte zum Verständnis und zur Behandlung neurologischer Erkrankungen beitragen, da sie ein Instrument zur Verfügung stellt, mit dem sich die Aktivität bestimmter Gehirnzellen mit noch nie dagewesener Präzision untersuchen und kontrollieren lässt. Für die Zukunft haben sich Deupi und Hidber zum Ziel gesetzt, diesen Prozess umzukehren. Sie wollen neue Proteine mit massgeschneiderten Eigenschaften für bestimmte Anforderungen entwerfen, zum Beispiel Proteine, die auf das Licht einer bestimmten Farbe reagieren. Diese Blaupause könnte dann von Mitarbeitenden im Labor experimentell überprüft und hoffentlich bestätigt werden.

Die Dynamik von Proteinen steht auch im Mittelpunkt der Forschung von Cecilia Casadei. Die Physikerin hat einen neuen Algorithmus entwickelt, mit dem sich Messungen an Freie-ElektronenRöntgenlasern wie dem SwissFEL effizienter auswerten lassen. Die Bausteine des Lebens führen oft ultraschnelle Bewegungen aus. Diese genau zu untersuchen, ist ebenfalls entscheidend, um Proteine besser zu verstehen. Langfristig kann dies wertvolle Informationen über Krankheitsprozesse liefern und die Entwicklung neuer medizinischer Ansätze ermöglichen.

Extrem kurze Blitze aus Röntgenlicht auswerten

Der SwissFEL liefert extrem intensive und kurze Blitze aus Röntgenlicht in Laserqualität, um die ultraschnellen Bewegungen der Proteine zu vermessen. Diese liegen als Kristalle vor, ihre Struktur zeigt sich in sogenannten Diffraktionsbildern, die durch die regelmässige Anordnung der Proteine im Kristall entstehen und die von einem Detektor registriert werden. Die Daten aus einem einzigen Kristall enthalten aber nur zwei Prozent der Informationen eines vollständigen Bildes. Um dies zu umgehen, werden die Daten üblicherweise in grobe Zeitabschnitte eingeteilt und alle Daten innerhalb eines Abschnitts gemittelt. Allerdings gehen bei dieser Mittelung auch viele Detailinformationen verloren. «Man könnte sagen, die Einzelbilder des Proteinfilms sind dann ein wenig verwaschen», so Casadei. «Deshalb haben wir eine Methode entwickelt, die mehr aus den Messdaten herausholt.»

Die neue Methode, die Casadei und ihr Team erarbeitet haben, trägt den Namen «Low-pass spectral analysis», kurz LPSA. Durch hochkomplexe mathematische Gleichungen entfernen die Forschenden unerwünschtes Rauschen aus den Daten, ohne die relevanten Details der Proteindynamik zu verlieren. Statt verwaschener Diffraktionsbilder lassen sich damit scharfe Aufnahmen in kürzesten Zeitabschnitten erzeugen, die die Proteinbewegung geschmeidig und ruckelfrei verfolgen – als würde man von einem alten Röhrenfernseher auf ein Video mit hoher Auflösung wechseln.

«Der neue Algorithmus hilft den Forschenden hier am SwissFEL des PSI, mehr Informationen aus ihren Daten herauszuholen», sagt Casadei. Umgekehrt kann der Algorithmus helfen, die langen Messzeiten zu verkürzen. Da Strahlzeit an Grossforschunganlagen allgemein und am SwissFEL im Besonderen stets knapp ist, stellt dies eine höchst willkommene Aussicht für Protein-Forschende dar, die diese Spitzenanlage nutzen.

Eine weitere Herausforderung kommt auf die Forschenden mit dem Projekt SLS 2.0 zu. Nach ihrem Upgrade wird die Synchroton Lichtquelle Schweiz SLS ab 2025 im Vergleich zu vorher ein Vielfaches an Messdaten liefern. Das können auch extrem leistungsfähige Computer kaum mehr verarbeiten. Maschinelles Lernen wird deshalb eine zentrale Rolle spielen. So haben die Forschenden für die SLS 2.0 Algorithmen entwickelt, die aus den Helligkeitswerten, die die Detektoren registrieren, in hoher Geschwindigkeit die Phasenverschiebungen der eintreffenden Lichtstrahlen bestimmen und daraus besonders wertvolle Informationen über die Probe liefern. «Das PSI ist dabei weltweit führend», betont Gebhard Schertler, Leiter des Forschungsbereichs Biologie und Chemie am PSI.

Eine weitere Stärke von maschinellem Lernen ist es, dass es Daten aus unterschiedlichen Messverfahren verknüpfen kann. So könnte man zum Beispiel Bilder von Zellkernen mit dem Lichtmikroskop anfertigen, und Röntgenverfahren in der SLS 2.0 liefern zusätzlich hochauflösende Aufnahmen. Die KI würde diese unterschiedlichen Daten mit biochemischen klinischen Daten von Patientinnen und Patienten kombinieren. Ein und dieselbe Zelle kann man nicht mit unterschiedlichen analytischen Methoden untersuchen, aber mit maschinellem Lernen ist es möglich, die Datensätze der verschiedenen Methoden abzugleichen. Der Algorithmus erkennt die Eigenschaften von Zellen aus unterschiedlichen Experimenten. Das ist fast so, als hätte man ein und dieselbe Zelle mit allen Methoden gleichzeitig untersucht.

Grossforschungsanlagen bleiben unverzichtbar

Werden Grossforschungsanlagen wie der SwissFEL oder die SLS also bald überflüssig, weil sich alles mit KI und maschinellem Lernen erforschen lässt? Xavier Deupi verneint. «Grossforschungsanlagen bleiben auch im Zeitalter der KI unverzichtbar. Grosse Sprachmodelle bieten zwar leistungsstarke Werkzeuge für die Analyse bekannter Daten, können aber die Fähigkeit dieser Einrichtungen, neue grundlegende Daten zu generieren, nicht ersetzen.»

Der Prozess, wie Wissenschaft gemacht wird, ändert sich gerade grundlegend.

Xavier Deupi, Labor für Theorie kondensierter Materie

Dennoch ist die KI zu einem festen Bestandteil des Forschungsinstrumentariums geworden: von der Gewinnung von Erkenntnissen aus einer grossen Anzahl wissenschaftlicher Veröffentlichungen über die automatische Generierung von Programmcode bis zum Verfassen von Artikeln auf der Grundlage experimenteller Daten. «Diese Werkzeuge sind Teil unserer täglichen Routine», bestätigt Flurin Hidber. Xavier Deupi betont: «Trotz dieser Fortschritte sind für die Interpretation und kritische Diskussion der Ergebnisse nach wie vor erfahrene Forschende erforderlich.» Doch er räumt ein: «Junge Forschende wie Flurin arbeiten heute ganz anders als ich vor zwanzig Jahren – die Art und Weise, wie Wissenschaft betrieben wird, ändert sich grundlegend.»


Text: Bernd Müller

© Das PSI stellt Bild- und/oder Videomaterial für eine Berichterstattung über den Inhalt des obigen Textes in den Medien kostenfrei zur Verfügung. Eine Verwendung dieses Materials für andere Zwecke ist nicht gestattet. Dazu gehören auch die Übernahme des Bild- und Videomaterials in Datenbanken sowie ein Verkauf durch Dritte.

Dr. Xavier Deupi 
Paul Scherrer Institut PSI

+41 56 310 33 37
xavier.deupi@psi.ch 

Über das PSI

Das Paul Scherrer Institut PSI entwickelt, baut und betreibt grosse und komplexe Forschungsanlagen und stellt sie der nationalen und internationalen Forschungsgemeinde zur Verfügung. Eigene Forschungsschwerpunkte sind Zukunftstechnologien, Energie und Klima, Health Innovation und Grundlagen der Natur. Die Ausbildung von jungen Menschen ist ein zentrales Anliegen des PSI. Deshalb sind etwa ein Viertel unserer Mitarbeitenden Postdoktorierende, Doktorierende oder Lernende. Insgesamt beschäftigt das PSI 2200 Mitarbeitende, das damit das grösste Forschungsinstitut der Schweiz ist. Das Jahresbudget beträgt rund CHF 420 Mio. Das PSI ist Teil des ETH-Bereichs, dem auch die ETH Zürich und die ETH Lausanne angehören sowie die Forschungsinstitute Eawag, Empa und WSL. (Stand 06/2023)