Wenn Grossforschungsanlagen wie der Schweizer Freie-Elektronen-Röntgenlaser SwissFEL und die Synchrotron Lichtquelle Schweiz SLS auf Hochtouren laufen, produzieren sie gewaltige Mengen an Daten. Um diese zu interpretieren und beispielsweise zur Entwicklung neuer Medikamente oder Materialien zu nutzen, bündelt das PSI jetzt seine Expertise im neuen Forschungsbereich Computergestützte Wissenschaften, Theorie und Daten.
Die Forscherkarriere von Alun Ashton begann in den 1990ern, also gewissermassen in der Steinzeit, zumindest was die Nutzung von Computern betrifft. «Als Student habe ich die Daten meiner Messungen auf Floppy-Discs gespeichert», erinnert sich der Biochemiker und Computerwissenschaftler. Für alle, die nicht wissen, wovon hier die Rede ist: Disketten waren wechselbare Magnetspeicher, die in ihrer modernsten Ausführung sagenhafte 1,4 Megabytes fassen konnten. «Müsste ich die Daten, die heute an nur einem Experiment an der Synchrotron Lichtquelle Schweiz SLS entstehen, auf solchen Floppys speichern, bräuchte ich davon Millionen – und mehrere Leben, um die Disketten zu wechseln.»
Zum Glück hat sich die Informationstechnologie so rasant entwickelt, dass Ashton seine Zeit für sinnvollere Dinge nutzen kann. Selbst grosse Datenmengen aus den Experimenten am PSI werden ausreichend schnell verarbeitet und gespeichert. Zumindest bis jetzt. Spätestens wenn 2025 nach einem Upgrade der SLS die SLS 2.0 den Betrieb aufnimmt, werden die Forschenden am PSI vor einem grossen Problem stehen. Nach dem Upgrade auf die SLS 2.0 können Experimente eine bis zu tausendfach höhere Leistungsfähigkeit haben als bei der heutigen SLS und bei anderen Konfigurationen. Sie können daher viel mehr Daten liefern als bislang. Hinzu kommen bessere und schnellere Detektoren mit höherer Auflösung. Wo die heutige SLS-Strahllinie einen Datensatz pro Minute erzeugt, werden mit der SLS 2.0 in weniger als einer Sekunde solche Datenmengen entstehen. Der brandneue Jungfrau- Detektor am SwissFEL kann bei voller Geschwindigkeit sogar auf 50 Gigabytes pro Sekunde kommen. Eine herkömmliche PC-Festplatte wäre schon nach wenigen Sekunden randvoll. Insgesamt liefern die Experimente am PSI derzeit 3,6 Petabytes pro Jahr. Wenn die SLS 2.0 voll in Betrieb ist, können die Experimente allein dort bis zu 30 Petabytes pro Jahr erzeugen, wofür man rund 50 000 PC-Festplatten bräuchte. Wer das unbedingt in Floppy-Discs umrechnen möchte, kann gut und gerne noch sechs Nullen anhängen.
Frische Ideen gesucht
Seit Jahren ist klar: Mit den alten Konzepten lassen sich am PSI die neuen Herausforderungen nicht bewältigen. Es braucht frische Ideen, wie man der riesigen Datenmengen Herr werden kann, um die immer anspruchsvolleren und zahlreicheren Forschungsfragen zu beantworten. Und es braucht einen eigenen Forschungsschwerpunkt mit entsprechender organisatorischer Struktur. Ergebnis ist der neue Forschungsbereich Computergestützte Wissenschaften, Theorie und Daten, kurz SCD, der im Juli 2021 gegründet wurde. Der SCD verbindet bereits bestehende Einheiten wie beispielsweise das Labor für Simulation und Modellierung, das interimsweise von Andreas Adelmann geleitet wird, aber auch neue Einheiten wie den dritten Standort des Swiss Data Science Center am PSI, der die beiden bisherigen Standorte an der ETH Lausanne (EPFL) und der ETH Zürich (ETHZ) ergänzt. Rund siebzig Personen in vier Abteilungen forschen, entwickeln und stellen Support bereit, schon bald sollen es hundert sein. Während die drei Laborleiter Andreas Adelmann, Andreas Läuchli und Nicola Marzari sich vor allem um wissenschaftliche Methoden in ihren jeweiligen Fachdisziplinen kümmern, leitet Alun Ashton mit der Abteilung Wissenschaftliche IT-Infrastruktur und Dienstleistungen eine Service-Einheit, die Wissenschaftler und Wissenschaftlerinnen im Forschungsbereich Photonenforschung, am SCD sowie PSI-weit fachlich im Scientific Computing unterstützt.
«Die Forschungsabteilungen sollen forschen und nicht eigene IT-Abteilungen unterhalten», so Ashton. Deshalb sei die Zentralisierung im SCD der richtige Schritt. «Wir erfinden das Rad nicht neu, aber mit dem SCD haben wir dennoch ein Alleinstellungsmerkmal », pflichtet Andreas Adelmann bei. Der neue Forschungsbereich nutze Synergien besser, habe Strahlkraft in der internationalen Wissenschaft und ziehe gute Leute an. Adelmann: «Das SCD ist mehr als die Summe seiner Teile.»
Einer seiner interessantesten «Kunden» sei Marco Stampanoni, sagt Alun Ashton mit einem Augenzwinkern. Das Team des ETH-Professors hat sich der tomografischen Röntgenmikroskopie verschrieben, die allerhöchste Anforderungen an die Rechenleistung und Speicherkapazität stellt. Um etwa zu untersuchen, wie bei der Synthese einer neuen Legierung ein warmes Gas in einen metallischen flüssigen Schaum dringt, muss die Software für jede Millisekunde einen dreidimensionalen Schnappschuss aus den Daten errechnen. Das sind gewaltige Datenmengen, die erzeugt und weiterbearbeitet werden müssen. Andere Kollegen im gleichen Labor beschäftigen sich mit computergestützter Mikroskopie und insbesondere der Ptychografie. Sie ersetzt die konventionelle Röntgenmikroskopie, die mit Linsen arbeitet, aber nicht so feine Auflösungen erreicht, wie es mit Röntgenstrahlen eigentlich möglich wäre. Bei der Ptychografie rekonstruiert ein iterativer Algorithmus das Röntgenbild aus den Rohdaten des Detektors, der weit von der Probe entfernt ist, ohne dass eine Linse dazwischen liegt, und der die kohärenten Eigenschaften einer Synchrotronquelle nutzt. Die zugrunde liegende mathematische Operation ist rechnerisch sehr anspruchsvoll und muss tausend Mal ausgeführt werden. Bei der SLS 2.0 werden die Anforderungen an solche Rechenleistungen erheblich steigen, was die Nutzung des Supercomputers am Swiss National Supercomputing Centre in Lugano unabdingbar macht.
Kein Verlass aufs Mooresche Gesetz
Und die Leistungslücke dürfte eher noch anwachsen. Denn auf das Mooresche Gesetz können sich die Forschenden am PSI sowie in vielen anderen naturwissenschaftlichen Disziplinen nicht mehr verlassen. Intel-Mitgründer Gordon Moore hatte 1965 vorhergesagt, dass sich die Zahl der Transistoren, was ungefähr mit der Rechenleistung korrespondiert, alle achtzehn Monate verdoppelt – manche Quellen geben auch zwölf beziehungsweise vierundzwanzig Monate an. Das Mooresche Gesetz gilt bis heute und wird wohl auch noch dieses Jahrzehnt Bestand haben. Doch das reicht leider nicht. «Die Brillanz der Quellen wie SwissFEL oder SLS 2.0 steigt schneller als das Mooresche Gesetz», warnt Marco Stampanoni. «Es braucht schlauere Lösungen als einfach nur immer mehr Rechenleistung.»
Eine könnte das maschinelle Lernen sein. «Es ist eine Binsenweisheit: In unseren Daten steckt viel mehr, als wir bisher auswerten konnten», sagt Andreas Adelmann. Maschinelles Lernen könne dieses verborgene Wissen in den riesigen Datenbergen finden. Und es kann helfen, teure Strahlzeit an SLS und SwissFEL zu sparen. Früher nahmen die Experimentatoren nach dem Ende ihrer Messungen die Daten mit nach Hause und analysierten sie in Ruhe. Aber Experimente können auch schiefgehen und das fiel dann oft erst Monate später auf. Schnelle Modelle auf Basis von maschinellem Lernen können noch während eines laufenden Experiments Aussagen treffen, ob die Messwerte plausibel sind. Falls nicht, bleibt Zeit, die Messapparatur zu justieren. Adelmann: «Die Datenerhebung im Experiment und die Datenanalyse rücken näher zusammen.»
Marco Stampanoni sieht hier das SCD als wichtigen Partner. Viele Nutzer und Forschende haben mit IT nichts am Hut und können damit überfordert sein. «Ein Mediziner muss nicht wissen, wie ein Synchrotron funktioniert oder wie und wo genau die Daten gespeichert werden.» Wenn er sich für die Wirkung eines Medikaments auf die Stabilität von Knochen interessiert, will er den 10 Terabytes grossen Datensatz nicht durcharbeiten müssen, den ihm ein tomografisches Experiment am Synchrotron liefert. Ihm reicht eine einfache Grafik, von der er die wichtigsten Ergebnisse ablesen kann. «Das SCD wird hier künftig einen Beitrag leisten, sodass Nutzer ihre Datenfragen lösen und in überschaubarer Zeit wissenschaftliche Ergebnisse erzielen können», hofft Stampanoni.
Synergien nutzen
Xavier Deupi hat keine Zweifel, dass dies gelingen wird. Für den Wissenschaftler der Forschungsgruppe Theorie kondensierter Materie war die Einrichtung des SCD unausweichlich. «Das PSI brauchte eine Konsolidierung des wissenschaftlichen Rechnens in einer organisatorischen Einheit, um Synergien nutzen zu können.» Die Datenwissenschaftler sind jetzt in der gleichen Abteilung, sie können Fragen von Deupis Team schneller beantworten und gemeinsame Projekte starten. «Aus ihrem IT-Knowhow und unserem Wissen über Biologie entstehen neue Werkzeuge zur Erforschung von Proteinen.»
Deupi bezeichnet sich selbst als «Heavy User» des leistungsfähigen Merlin-Rechners am PSI und des Supercomputers in Lugano. Für ein Experiment setzt er Hunderte Prozessoren ein, die Hunderte Stunden laufen, manchmal sogar mehrere Monate. Doch das ist immer noch nicht genug. Trotz der langen Rechenzeit kann Deupi nur Veränderungen an Proteinen simulieren, die wenige Mikrosekunden dauern. Doch wenn sich ein Molekül an ein Protein bindet – zum Beispiel Adrenalin an Rezeptoren in Herzzellen –, dauert das mindestens Millisekunden. Etwa ein Drittel aller Medikamente bindet an die Proteine, die Deupi untersucht. Könnte man den kompletten Vorgang wie in einem dreidimensionalen Video beobachten, wäre das für die Entwicklung solcher Medikamente ein Durchbruch. Doch selbst die stärksten Computer sind dazu noch nicht in der Lage.
Aber warum so kompliziert, wenn es auch einfach geht? Diese Frage stellen sich viele, seit Google mit AlphaFold eine Software vorgestellt hat, die mit künstlicher Intelligenz Modelle von solchen Proteinen viel schneller und genauer berechnet. Man gibt nur noch die Sequenz ein und AlphaFold spuckt die Struktur aus. «AlphaFold ist extrem gut», lobt Deupi. Das Ende der strukturellen Biologie, das manche schon prophezeien, sei aber damit nicht in Sicht. Und um seinen Arbeitsplatz mache er sich auch keine Sorgen. Denn erstens sagt der Google- Algorithmus nicht die ganze Struktur eines Proteins voraus und zweitens kann man aus der Struktur nicht einfach auf die Funktion des Proteins schliessen. «AlphaFold trifft keine Aussage, wie sich Proteine bewegen.» Genau dafür brauche es weiterhin Grossforschungsanlagen wie die SLS und den SwissFEL. «AlphaFold ersetzt diese Maschinen nicht, sie ergänzen sich vielmehr.»
Den Wandel begleiten
Das SCD sei genau der richtige Ort, um solche neuen Werkzeuge zu erproben. Dafür müssen Experimentatoren, Theoretikerinnen, Computerexperten, Ingenieurinnen und viele mehr miteinander reden. Das sei notwendig, damit Computerwissenschaftler die richtigen Lösungen für sie fänden, so Marie Yao. Sie wurde eigens am SCD eingestellt, um die babylonische Sprachverwirrung zu überwinden und die Veränderung zu begleiten für bestmögliche wissenschaftliche Resultate. Würde sie in einem Unternehmen arbeiten, dürfte sie sich als Managerin für strategische Allianzen bezeichnen. «Wandel ist nicht immer einfach», weiss Yao, die mehrere Jahre in einer ähnlichen Position am Oak Ridge National Laboratory in den USA gearbeitet hat. Manche Mitarbeitenden hätten Angst vor Bedeutungsverlust und würden an alten Abläufen festhalten. Sie sieht ihre Aufgabe darin, Teamarbeit zu fördern und ein Umfeld zu schaffen, in dem sich alle sicher und wertgeschätzt fühlen durch den von ihnen geleisteten Beitrag zu besseren technischen Lösungen.
Dazu koordiniert Yao im Team von Alun Ashton an der Schnittstelle von SCD und den weiteren Divisionen am PSI die Entwicklungen für den Start der SLS 2.0 im Jahr 2025 und trägt dazu bei, technische Lösungen zu entwickeln. Bis dahin müssen Hardware, Software und Netze bereit sein und die enormen Datenmengen bewältigen. Ein ganzheitlicher Ansatz sei wichtig, so Yao: «Die ganze Datenpipeline ist nur so stark wie ihr schwächstes Glied.»
Ein zunehmend schwächeres Glied in der Wissenschaft wie auch in anderen Bereichen der Wirtschaft ist der Fachkräftemangel. Wenn es nicht genügend geeignete Experten gebe, müsse man sie ausbilden, häufig auf interdisziplinären Gebieten, so Yao. «Die Gesellschaft gibt uns gut ausgebildete Experten, deshalb sollten wir etwas an die Gesellschaft zurückgeben – eine Möglichkeit hierzu ist, dass wir uns in der Ausbildung der nächsten Generation engagieren.»
Die Forschenden von morgen haben einiges an Arbeit vor sich. Software zur Lösung wissenschaftlicher Fragestellungen ist oft zwanzig Jahre alt und teilweise nicht effizient genug. Die Defizite mit noch mehr Rechenleistung zu erschlagen, funktioniert heute nicht mehr. Wissenschaftliche Software muss fit gemacht werden für die rasant wachsenden Datenmengen und für Trends im Höchstleistungsrechnen wie die Nutzung von Grafikprozessoren anstatt von herkömmlichen zentralen Rechen- und Steuereinheiten eines Computers. «Das SCD kann helfen, Leute anzuziehen, die genau so etwas können», glaubt Marie Yao.
Maschine und Modellierung
Im Fall von Andreas Läuchli ist das schon gelungen. Er ist neben Andreas Adelmann und Nicola Marzari der Leiter des dritten wissenschaftlichen Labors am SCD, das sich mit theoretischer und computergestützter Physik beschäftigt. Vor einem Jahr kam er aus Innsbruck ans PSI und an die EPFL, wo er auch einen Lehrstuhl hat. Läuchli soll die Theorie stärken, aber Hand in Hand mit den Experimentalphysikern arbeiten und ihnen Ideen für neue Experimente geben, vor allem am SwissFEL sowie an der SLS 2.0. Die Gründung des SCD hält Läuchli für eine gute Entscheidung. «Experimente und Theorie werden immer komplexer. Wer erfolgreich forschen und publizieren will, braucht dafür eine gute Maschine und eine gute Modellierung.» Das SCD sei wichtiger Bestandteil dieser Synthese.
Läuchlis Steckenpferd sind Vielteilchensysteme, worunter in der Physik alles fällt, das mehr als ein einzelnes Wasserstoff-Atom ist – also nahezu sämtliche Materie auf der Erde. Alle Wege, Energieniveaus in diesen Systemen zu bestimmen, führen über die Schrödinger-Gleichung. Sie liefert für das Wasserstoff-Atom exakte Ergebnisse, für Vielteilchensysteme wächst der Rechenaufwand exponentiell. Deshalb weichen Forschende schon bei wenigen Atomen auf Näherungen aus. Doch nicht immer ist sicher, dass die Näherungen nah genug an der Realität sind.
Dann packt Läuchli die Brechstange aus. «Brute force» nennt sich die Methode, bei der er mit brachialer Rechenleistung die Schrödinger-Gleichung für bis zu fünfzig Teilchen in die Knie zwingt. 20 000 Prozessorkerne mit mehreren Terabytes Arbeitsspeicher rechnen dann simultan mitunter mehrere Wochen an so einem Problem. Selbst der Supercomputer in Lugano ist dann zeitweise für andere Nutzer gesperrt. Läuchli: «Manchmal ist die Brute-force-Methode wichtig, um zu überprüfen, ob unsere Näherungen wirklich gültig sind.»
Wer erfolgreich forschen und publizieren will, braucht dafür eine gute Maschine und eine gute Modellierung.
Natürlich kann nicht jede Arbeitsgruppe spontan den Rechner belegen. Jedes Team muss in Lugano einen bis zu zwanzigseitigen Antrag einreichen, der nach wissenschaftlichem Erkenntnisgewinn und Effizienz der Algorithmen bewertet wird. Unbürokratischer ist die Nutzung am Computercluster Merlin am PSI. Wer dort viel Rechenzeit konsumiert hat, wird allerdings erst mal zurückgestuft und muss sich in der Warteschlange weiter hinten einreihen.
Grosse Erwartungen knüpft Andreas Läuchli an das Quantum-Computing-Hub (QCH), das 2021 am PSI gegründet wurde. «Vielleicht können wir Physik-Probleme, die sich auf klassischen Computern nicht rechnen lassen, künftig auf Quantencomputern abbilden.» Auch der Hub würde von der Zusammenarbeit profitieren, denn Quantencomputer basieren auf den physikalischen Prinzipien, die Läuchli mit seinem Team untersucht. Andreas Läuchli: «SCD und QCH gemeinsam – da sehe ich grosses Potenzial.»
Text: Bernd Müller
© Das PSI stellt Bild- und/oder Videomaterial für eine Berichterstattung über den Inhalt des obigen Textes in den Medien kostenfrei zur Verfügung. Eine Verwendung dieses Materials für andere Zwecke ist nicht gestattet. Dazu gehören auch die Übernahme des Bild- und Videomaterials in Datenbanken sowie ein Verkauf durch Dritte.