5 000 000 000 000 000 Bytes von Villigen nach Lugano

Bei Untersuchungen winziger Strukturen mit den Grossforschungsanlagen des PSI fallen riesige Datenmengen an. Diese werden im Supercomputerzentrum CSCS in Lugano archiviert. Dort steht auch «Piz Daint» – diesen Supercomputer nutzen die Forschenden für ihre Simulationen und Modellierungen. 

Am Freie-Elektronen-Röntgenlaser SwissFEL in Villigen strömt ein winziger Proteinkristall in einer Zahnpastaartigen Masse langsam aus einem Injektor. Ein Laser trifft ihn und löst Bewegungen im Molekül aus. Es verändert seine Struktur – etwa wie wenn eine Katze einen Buckel macht. Eine billionstel Sekunde später durchdringt ein Röntgenlichtpuls die Probe und trifft auf einen Detektor. Damit wird die Strukturänderung des Proteins quasi fotografisch festgehalten. Bei dem so abgelichteten Protein handelt es sich um lichtempfindliches Rhodopsin, das zum Beispiel in der Netzhaut des menschlichen Auges vorkommt. Dessen Strukturveränderung ist der Ausgangspunkt für die Übertragung von Lichtreizen zum Gehirn.

Im Versuchsaufbau treffen pro Sekunde 25 Röntgenlichtpulse auf die Proteinkristalle in der zähflüssigen Masse. Die Pulse dauern nur eine billiardstel Sekunde an und haben eine extrem hohe Dichte an Photonen. Das ermöglicht hochauflösende Bilder von molekularen Strukturen. Am Ende entsteht aus den vielen einzelnen Aufnahmen eine Art Daumenkino von den Bewegungen des Proteins. «Bei derlei präzisen Filmaufnahmen wächst der Datenberg gewaltig in die Höhe», so Leonardo Sala, Gruppenleiter des Bereichs High Performance Computing am PSI. So lieferten die Aufnahmen der Rhodopsin-Proteinkristalle eine Rohdatenmenge von etwa 250 Terabyte. Das ist ungefähr das Tausendfache, das ein handelsüblicher Laptop an Speicherkapazität aufweist.

Nicht nur am SwissFEL, auch an anderen Grossforschungsanlagen wie der Synchrotron Lichtquelle Schweiz SLS oder der Neutronenquelle SINQ führen Fortschritte in der Beschleuniger- und Detektortechnik zu Leistungssteigerungen, wodurch bei Experimenten immer mehr Daten erzeugt werden. So werden derzeit am PSI jährlich bis zu 5 Petabyte Daten produziert. Das entspricht in etwa der Speicherkapazität von einer Million DVDs. 

Das Bandarchiv des CSCS: Der Roboter zwischen den Regalen kann auf jedes der 3600 Datenbänder zugreifen, auf denen die Daten von wichtigen Experimenten
lagern.
(Foto: CSCS)

Wohin mit den vielen Daten?

Für diese Datenmengen ist das Rechenzentrum des PSI nicht ausgelegt. Seit 2018 findet die Archivierung von Daten daher am Supercomputerzentrum Centro Svizzero di Calcolo Scientifico (CSCS) in Lugano statt. Das sogenannte Petabyte-Archiv wurde in enger Zusammenarbeit zwischen Kollegen von PSI und CSCS entwickelt. Computerexperten der beiden Einrichtungen arbeiteten eigens einen Managementprozess aus, mit dem digitale Informationen komprimiert, sicher übertragen, archiviert sowie wieder abgerufen und nach Ablauf der mindestens 5-jährigen Archivierungszeit gelöscht werden können. Über ein Glasfaserkabel werden mit einer speziell entwickelten Netzwerkverbindung zwischen PSI und CSCS pro Sekunde 10 Gigabyte Daten übertragen.

Ein Ende der Datenflut ist nicht zu erwarten. Mit der Aufrüstung der SLS zur SLS 2.0 werden künftig noch sehr viel mehr Bits und Bytes produziert. «Wir arbeiten derzeit an einer Prozedur, um dieses Volumen zu reduzieren und komprimieren», sagt Sala. Spezielle Algorithmen sollen die Daten, die von den Detektoren kommen, sortieren, sodass nur noch die für die Forschungsarbeiten relevanten Informationen gespeichert werden. Sala erklärt, weshalb das sinnvoll ist: «Bei der Messung der Proteine an der SLS treffen weniger als 20 Prozent der Röntgenpulse ein Protein und produzieren ein brauchbares Bild.» Die Signale, die kein Ergebnis liefern, müssen also nicht aufwendig gespeichert werden.

Was sich so einfach anhört, ist in der Realität eine gewaltige Herausforderung. «Einem Computer beizubringen, welche Messungen unbrauchbar sind, ist sehr schwierig», räumt denn auch Sala ein. Doch das ist nur der erste Schritt zur Eindämmung der Datenschwemme. Nach dem automatisierten Aussortieren können die IT-Spezialisten das Datenvolumen um den Faktor zehn verringern, indem sie nicht Rohdaten, sondern die zur Endnutzung aufbereiteten Informationen abspeichern.

Von Villigen den Roboter in Lugano aktivieren

Am CSCS in Lugano finden sich die Ergebnisse der Messungen der Proteinforschungsgruppe schliesslich in einer sogenannten Bandbibliothek wieder. Eingelagert in einem Regal befinden sich etwa 3600 Datenbänder, bei denen es sich um ähnliche Magnetbänder handelt, wie man sie vor Jahrzehnten noch für Videokassetten benutzte. «Zu Anfang stehen uns in der Bandbibliothek 10 Petabyte Speicher zur Verfügung. Der grosse Vorteil an der Zusammenarbeit mit dem CSCS ist, dass wir das bei Bedarf beliebig aufrüsten können», so Sala. Bis 2022 plant das PSI, rund 85 Petabyte zur Archivierung an das CSCS zu übertragen. 

Zu Anfang stehen uns in der Bandbibliothek 10 Petabyte Speicher zur Verfügung. Bei Bedarf können wir das beliebig aufrüsten.

Leonardo Sala, Gruppenleiter des Bereichs High Performance Computing am PSI

Daten zu speichern, ist die ein Sache, sie wieder aus dem Archiv herauszuholen, eine völlig andere. Deshalb listet ein speziell dafür eingerichteter Katalog auf, wo sich welche Informationen befinden. Bei Bedarf stöbern Forschende einfach in diesem Katalog und aktivieren von Villigen aus einen Roboter, der die passenden Bänder heraussucht, in ein Laufwerk eines Computers steckt und das Versenden zum PSI auslöst. Die Zusammenarbeit mit dem CSCS geht jedoch über die reine Archivierung von Forschungsergebnissen hinaus. «Den Supercomputer am CSCS nutzen wir schon seit 15 Jahren», so Andreas Adelmann, Leiter des Labors für Simulationen und Modellierung am PSI. Denn für Simulationen und Modellierungen von Grossforschungsanlagen und Experimenten, zum Beispiel in den Material- und Biowissenschaften, benötigen die Forschenden enorm hohe Rechenleistungen. Diese finden sie am «Piz Daint» des CSCS, einem der leistungsfähigsten Supercomputer der Welt. Schaffte 1941 der erste in der Praxis einsetzbare, frei programmierbare Rechner, die «Z3», knapp zwei Additionen pro Sekunde, so beträgt die Rechenleistung des «Piz Daint» heute 25000 Peta-flop in der Sekunde. Das sind 25 Billiarden Rechenoperationen, 14000-mal schneller als eine Grafikkarte der Playstation 4.

Prinzipiell wird in der PSI-Forschung für fast alles Modellierung und Simulation benötigt, sei es, um zu verstehen, wie sich etwa Risse in Materialien fortpflanzen oder um Komponenten von Brennstoffzellen zu erforschen. 

Zwischen den Daten: Leonardo Sala im Serverraum der Synchrotron Lichtquelle Schweiz SLS. Hier werden die Daten zwischengespeichert, die an SLS und SwissFEL produziert werden.
(Foto: Scanderbeg Sauer Photography)

Teilchenbeschleuniger wie das Zyklotron zur Protonenbeschleunigung, die SLS oder der SwissFEL werden mithilfe von Simulationen nicht nur neu konstruiert, sondern auch weiterentwickelt und optimiert. Zudem können die Forschenden berechnen, wie ein Experiment wahrscheinlich verlaufen wird, um so mögliche Probleme in der Versuchsanordnung zu erkennen.

Und es gibt noch einen weiteren Grund, warum man gerne und mit gutem Gewissen seine Daten für die Berechnungen und Archivierung nach Lugano schickt: «PIZ Daint» ist seit 2013 der günstigste und energieeffizienteste Petaflop-Supercomputer der Welt, denn für dessen Kühlung verbrauchen keine energieintensiven Klimaanlagen Strom. Dass die elektronischen Superhirne des CSCS nicht heiss laufen, verhindert das Wasser des Luganersees. Aus 45 Meter Tiefe wird etwa 6 Grad kaltes Nass entnommen und nach der Nutzung in eine Tiefe von 12 Meter zurückgeführt. Dabei wird die durch den Höhenunterschied entstehende, potenzielle Energie des Wassers mithilfe von Turbinen auch noch für Stromerzeugung genutzt. 

Text: Christina Bonanati