Moderne Bild- und Sequenziertechniken bieten Forschenden mittlerweile unzählige Möglichkeiten, so genau wie nie zuvor in einzelne Zellen zu blicken und regulatorische Abläufe zu erfassen. Aber was tun mit den riesigen Datenmengen, die dabei entstehen? In zwei Veröffentlichungen in Nature Communications stellt G.V. Shivashankar, Leiter des Labors für Biologie im Nanobereich am Paul Scherrer Institut PSI und Professor für Mechanogenomik an der ETH Zürich, Methoden vor, um die Daten mithilfe des maschinellen Lernens zu kombinieren und so Antworten auf drängende biomedizinische Fragen zu finden. Wie das funktioniert, erzählt er im Interview.
Herr Shivashankar, alle sprechen von der Datenexplosion: Ungefähr alle zwei Jahre verdoppelt sich die Menge der weltweit gespeicherten Daten. In der Wissenschaft ist das nicht anders. Was ist in Ihrem Forschungsbereich der Grund für die hohe Datenmenge?
G.V. Shivashankar: Ein Grund ist das Untersuchen und die Sequenzierung des Erbmaterials einzelner Zellen. Früher hat man die Information von vielen Millionen Zellen zu einem Durchschnittswert kombiniert – etwa wenn man eine Blutprobe untersuchte. Aber in der modernen personalisierten Medizin reichen solche Durchschnittsdaten nicht mehr: Man will jede einzelne Zelle messen, um zu verstehen, was sie macht. In den letzten zehn Jahren hat man Techniken entwickelt, um auf Einzelzellebene alle möglichen Daten zu generieren: Bilddaten, DNA-Sequenz, die Gesamtheit aller Proteine in einer Zelle und so weiter.
Warum braucht man diese Informationen für jede einzelne Zelle?
Weil die Zellen alle so verschieden sind, selbst wenn sie dem gleichen Typ angehören und im gleichen Gewebe sitzen. Die Art, wie das Erbgut abgelesen wird, hängt sehr stark von der Mikro-Umgebung einer Zelle ab.
Wieso denn das? Das Ablesen der DNA hängt doch hauptsächlich vom Erbgut selbst ab, von den einzelnen Genen, oder nicht?
Das haben wir lange Zeit angenommen. Aber in den letzten 10 bis 15 Jahren wurde klar, dass auch die Art, wie das Erbgut in den Zellkern gepackt ist, entscheidend ist. Sie bestimmt, wie das Erbgut abgelesen wird. Und auch wie sich Krankheiten in den verschiedenen Geweben entwickeln.
Wie kann das sein?
Die DNA in jeder unserer Zellen ist etwa einen Meter lang. Sie wird in einen kleinen Zellkern gepackt, der nur etwa 10 Mikrometer gross ist, also ein Hundertstel eines Millimeters. Die Steifheit des Gewebes, Spannungen oder andere Eigenschaften der Mikro-Umgebung können die Art verändern, wie die DNA gepackt wird. Viele altersbedingte Krankheiten hängen genau damit zusammen. Eine nicht-normale Packung der DNA spielt sogar eine Rolle bei der Entwicklung von neurodegenerativen Erkrankungen und Krebs.
Wie kann man denn “messen”, wie die DNA gepackt ist?
Genau da wird es interessant. Vor ein paar Jahren haben wir die Hypothese entwickelt, dass man durch das Verständnis, wie die DNA gepackt ist, sogar voraussagen kann, wie sich eine Zelle verhält und welche Gene sie abliest. Um das zu untersuchen, benutzen wir die Bildgebung: Wir machen Bilder von Zellen in ihrer natürlichen Umgebung, etwa mit Lichtmikroskopie, und versuchen aus diesen Bildern abzuleiten, wie die DNA gepackt ist, um das dann mit ihrer Funktionsweise zu koppeln.
Ich nehme an, Sie gehen dafür nicht persönlich Tausende Bilder von Zellen durch.
Richtig, wir nutzen maschinelles Lernen in Zusammenarbeit mit Caroline Uhler vom Massachusetts Institute of Technology in den USA, einem der führenden Labore auf diesem Gebiet. So extrahieren wir die wichtigen Informationen aus den Bildern von Zellen und Geweben in unterschiedlichen funktionellen Stadien. Die entscheidende Frage dabei lautet: Was sind die unterschiedlichen Merkmale der verschiedenen Stadien? So hoffen wir, zwischen normalen und nicht-normalen Zuständen einer Zelle unterscheiden zu können.
Wie funktioniert das praktisch?
Jedes Bild eines Zellkerns hat Tausende von Merkmalen: Maserung, Helligkeit und Intensität in verschiedenen Regionen sowie geometrische Besonderheiten, zum Beispiel längliche oder runde Strukturen. Das alles gibt Hinweise darauf, wie die DNA gepackt ist. Mithilfe des maschinellen Lernens können wir Informationen zu diesen Merkmalen gewinnen und sie verstehen. Um die Informationen in den Bildern später benutzen zu können, müssen wir sie zudem in einer vereinfachten Form darstellen, wir nennen das «in eine niedrigere Dimension bringen».
Und hat es am Ende geklappt, von den Bildern auf die Funktionsweise der Zellen zurückzuschliessen?
Ja, indem wir sie mit den Genexpressionsdaten in Verbindung setzen. Dafür haben wir eine neue Methode des maschinellen Lernens entwickelt. Sie ermöglicht die Multidomänen-Daten-Übersetzung und erlaubt es uns, Daten verschiedener Arten ineinander zu überführen, etwa Bilder und Sequenzierdaten einer Zelle – also Daten, die bisher nicht experimentell in der gleichen Zelle gemessen werden können. In diesem Fall haben wir tausende von T-Zellen abgebildet, das sind Immunzellen im Blut. Mit unserer Methode des maschinellen Lernens verbanden wir die Art, wie die DNA in diesen Zellen gepackt ist, mit den Expressionsdaten, die zeigen, welche Gene abgelesen werden. Wir wollten wissen: Wenn ein Teil des Erbguts dichter gepackt ist, sind das dann Gene, die ausgeschaltet sind? Unsere Hypothese war, dass dichter gepackte Regionen nicht abgelesen werden, weil sie einfach weniger zugänglich sind.
Und, stimmt das?
Ja, und am Ende konnten wir auf dieser Basis voraussagen, welche Gene abgelesen werden – alleine aufgrund der Art, wie die DNA gepackt ist, ohne die Gene selbst zu messen. Das ist ein grosser Fortschritt für das Fachgebiet, denn das Sequenzieren auf Einzelzellebene ist teuer, und Bilder einzelner Zellen können oft einfacher gemacht werden. Vor allem aber werden diese Bilder von den Zellen in ihren natürlichen Mikro-Umgebungen im Gewebe gemacht.
Was sind medizinische Anwendungen von Mechanogenomik und Methoden des maschinellen Lernens?
In einer anderen Arbeit haben wir vor Kurzem gezeigt, dass sie sich kombinieren lassen, um neue Medikamente zu finden. Oder genauer: um herausfinden, welche Wirkstoffe, die bereits auf dem Markt sind, gegen andere Krankheiten helfen. Krankheiten, an die man bei der Zulassung der Medikamente gar nicht gedacht hat. Wir haben beispielsweise nach bereits bekannten Wirkstoffen gesucht, die gegen Covid-19 helfen können. Wir vermuten stark, dass eine Infektion mit Sars-CoV-2 ältere Menschen so schwer trifft, weil deren Zellen älter und damit steifer sind. Daher kann das Virus besonders gut in die Signalwege der Zelle eingreifen und sich in diesen Zellen besser vermehren. Also wollten wir wissen: Gibt es bereits Wirkstoffe auf dem Markt, die eine ältere infizierte Zelle quasi in den Normalzustand vor der Infektion zurückversetzen?
Wie sind Sie vorgegangen, zum solche potenziellen Wirkstoffe gegen Covid-19 zu finden?
Wir haben uns angesehen, wie sich das Ablesen der Gene verändert, wenn Zellen mit Sars-CoV-2 infiziert werden. Ausserdem haben wir CMap benutzt, eine Datenbank, in der für Tausende von chemischen Verbindungen gespeichert ist, wie sie in Zellen das Ablesen des Erbguts verändern. All diese Informationen haben wir zusammengebracht und zwei mögliche Wirkstoffgruppen identifiziert, die die Wirkung von Sars-CoV-2 rückgängig machen könnten. Diese Wirkstoffe blockieren bestimmte Enzyme in der Zelle und sollten dadurch älteren Covid-19-Patienten helfen.
Werden Sie diese Vermutung im Labor oder am Patienten überprüfen?
Überraschenderweise fanden wir heraus, dass bereits klinische Studien zu einer der Medikamentengruppen mit Covid-19-Patienten laufen. Die pharmazeutische Industrie ist vermutlich auf anderem Wege als wir zu der gleichen Vermutung gelangt. Wir werden also bald wissen, ob diese Medikamente tatsächlich helfen.
Wie können solche neuen Methoden die personalisierte Medizin voranbringen?
Ein Beispiel: In Zusammenarbeit mit dem Zentrum für Protonentherapie am PSI beginnen wir ein Projekt, um einen Biomarker zu entwickeln, der angibt, wie wirksam eine Protonentherapie verläuft. Unsere Hypothese ist, dass die Blutzellen im Körper eines Krebspatienten Signale von Tumorzellen empfangen. Daraufhin verändern die Blutzellen ihre DNA-Struktur und lesen andere Gene ab. Wir wollen also Blutproben von Patienten der Protontherapie am PSI untersuchen. Wir werden dann die Packungsstruktur der DNA in den Blutzellen als einen Biomarker verwenden, um den Behandlungserfolg bei einem Patienten zu evaluieren. Das bietet vielleicht eine Möglichkeit, die Therapie abhängig von den Ergebnissen genauer anzupassen.
Was ist der nächste grosse Schritt in puncto Data Science in Ihrem Fachgebiet?
Letztendlich wollen wir verstehen, wie Krankheiten in einzelnen Zellen entstehen, innerhalb der Mikro-Umgebung eines Gewebes. Davon sind wir noch weit entfernt. Aber das Verständnis dafür ist entscheidend, um therapeutisch schon sehr früh eingreifen zu können. Aber wenn man alle Proteine in einer Zelle betrachtet, ist das wie bei Google Earth: Es gibt einfach viel zu viele Informationen gleichzeitig. Dabei im Ganzen zu verstehen, was da passiert, können uns Data-Science-Methoden helfen.
Interview: Paul Scherrer Institut/Brigitte Osterath
Weitere Informationen zu den beteiligten Institutionen:
Warum Covid-19 ältere Menschen besonders hart trifft – Interview mit G.V. Shivashankar
Kontakt/Ansprechpartner
Prof. Dr. G.V. Shivashankar
Forschungsbereich für Biologie und Chemie
Paul Scherrer Institut, Forschungsstrasse 111, 5232 Villigen PSI, Schweiz
Telefon: +41 56 310 42 50, E-Mail: gv.shivashankar@psi.ch [Englisch]
Originalveröffentlichung
Multi-Domain Translation between Single-Cell Imaging and Sequencing Data using Autoencoders
K. D. Yang, A. Belyaeva, S. Venkatachalapathy, K. Damodaran, A. Katcoff, A. Radhakrishnan, G.V. Shivashankar, C. Uhler
Nature Communications, 4. Januar 2021 (online)
DOI: 10.1038/s41467-020-20249-2
Causal Network Models of SARS-CoV-2 Expression and Aging to Identify Candidates for Drug Repurposing
A. Belyaeva, L. Cammarata, A. Radhakrishnan, C. Squires, K. D. Yang, G.V. Shivashankar, C. Uhler
Nature Communications, im Druck
Nutzungsrechte
Das PSI stellt Bild- und/oder Videomaterial für eine Berichterstattung über den Inhalt des obigen Textes in den Medien kostenfrei zur Verfügung. Eine Verwendung dieses Materials für andere Zwecke ist nicht gestattet. Dazu gehören auch die Übernahme des Bild- und Videomaterials in Datenbanken sowie ein Verkauf durch Dritte.