5 000 000 000 000 000 d’octets de Villigen à Lugano

Les analyses de structures minuscules aux grandes installations de recherche du PSI engendrent d’énormes volumes de données, qui sont archivées au Centre suisse de calcul scientifique CSCS, sis à Lugano. C’est là que se trouve aussi Piz Daint, un superordinateur que les chercheurs utilisent pour leurs simulations et leurs modélisations. 

Au laser à rayons X à électrons libres SwissFEL de Villigen, un minuscule cristal de protéines s’écoule lentement de l’injecteur au sein d’une masse semblable à du dentifrice. Un laser le frappe et déclenche des mouvements dans la molécule, qui modifie alors sa structure, un peu comme un chat qui ferait le gros dos. Un milliardième de seconde plus tard, une impulsion de rayons X traverse l’échantillon et atteint un détecteur qui saisit de manière photographique la modification structurale de la protéine. Dans notre cas de figure, il s’agit d’une protéine photosensible appelée «rhodopsine», présente par exemple dans la rétine de l’œil humain, dont la modification de sa structure constitue le point de départ de la transmission de stimuli lumineux vers le cerveau.

Dans ce dispositif expérimental, 25 impulsions de rayons X atteignent à chaque seconde les cristaux de protéines pris dans la masse visqueuse. Les impulsions durent seulement un milliardième de seconde, et leur densité de photons est extrêmement élevée. Cela permet d’obtenir des images de structures moléculaires en haute résolution. Le résultat final est une sorte de folioscope des mouvements de la protéine, composé des nombreuses prises de vue. «Avec des prises de vue animées aussi précises, la montagne de données s’accroît de manière formidable», relève Leonardo Sala, responsable de groupe du domaine High Performance Computing au PSI. Les clichés des cristaux de rhodopsine ont ainsi généré quelque 250 téraoctets de données brutes, soit environ mille fois la capacité de stockage d’un ordinateur portable du commerce.

Il n’y a pas qu’au SwissFEL que les progrès techniques, dans le domaine des accélérateurs et des détecteurs, améliorent les performances. C’est aussi le cas d’autres grandes installations de recherche, comme la Source de Lumière Suisse SLS ou la source de neutrons SINQ. Les expériences engendrent de plus en plus de données. Actuellement, ce sont jusqu’à 5 pétaoctets de données qui sont générés chaque année au PSI, ce qui correspond à la capacité de stockage d’environ un million de DVD. 

Archives de bandes du CSCS: le robot, entre les rayonnages, peut accéder à chacune des 3600 bandes de données, où sont stockées les données d’expériences importantes.
(Photo: CSCS)

Que faire de toutes ces données?

Le centre de calcul du PSI n’est pas conçu pour de tels volumes. Depuis 2018, l’archivage de ces données se fait donc au centre national de calcul de grande puissance Centro Svizzero di Calcolo Scientifico (Centre suisse de calcul scientifique, CSCS), sis à Lugano. Les archives dites «archives pétaoctets» ont été développées par des collègues du PSI et du CSCS dans le cadre d’une étroite collaboration. Des experts informatiques des deux institutions ont mis au point un processus de gestion qui permet de comprimer les informations numériques, de les transférer, de les archiver, de les récupérer et de les supprimer en toute sécurité après expiration du délai d’archivage de cinq ans. Une connexion réseau spéciale entre le PSI et le CSCS permet de transférer par fibre optique 10 gigaoctets de données par seconde.

Rien ne laisse présager que ce «déluge de données» pourrait un jour prendre fin. Avec la transformation de la SLS en SLS 2.0, ce sont encore bien plus de bits et d’octets qui seront produits. «Nous travaillons actuellement à l’élaboration d’une procédure pour réduire et comprimer ce volume», précise Leonardo Sala. L’idée serait de développer des algorithmes particuliers qui trient les données issues des détecteurs, de sorte que seules les informations pertinentes pour les travaux de recherche soient sauvegardées. Leonardo Sala en explique l’intérêt: «Lorsque des mesures de protéines sont effectuées à la SLS, le taux d’impulsions de rayons X qui atteignent une protéine et qui produisent une image utilisable est de moins de 20%.» Il n’y a donc aucune raison de stocker des signaux qui ne fournissent pas de résultat.

Ce qui paraît simple a priori représente un immense défi dans la réalité. «Il est très difficile d’apprendre à un ordinateur à reconnaître les mesures inutilisables», admet Leonardo Sala. Cette étape n’est cependant que le premier pas vers un endiguement du flot de données. Après le tri automatisé, les spécialistes informatiques pourront réduire le volume de données d’un facteur dix, en stockant non les données brutes, mais les informations traitées en vue d’une utilisation finale.

Activer le robot à Lugano depuis Villigen

Les résultats des mesures se retrouvent finalement au CSCS à Lugano, dans ladite «bibliothèque de bandes». Quelque 3 600 bandes de données sont emmagasinées dans un rayonnage. Ces bandes magnétiques sont similaires à celles des vidéocassettes datant de plusieurs décennies. «Pour commencer, nous disposons dans la bibliothèque de bandes d’un stockage de 10 pétaoctets, précise Leonardo Sala. Le grand avantage de la collaboration avec le CSCS, c’est que nous pouvons l’augmenter à volonté en fonction de nos besoins.» Le PSI prévoit de transférer d’ici 2022 quelque 85 pétaoctets aux archives du CSCS.

Pour commencer, nous disposons dans la bibliothèque de bandes d’un stockage de 10 pétaoctets. En fonction de nos besoins, nous pouvons l’augmenter à volonté.

Leonardo Sala, responsable de groupe du domaine High Performance Computing au PSI

Stocker des données est une chose, les récupérer dans les archives en est une autre. Un catalogue spécialement établi à cet effet répertorie donc l’endroit où se trouvent telles ou telles informations. En cas de besoin, les chercheurs peuvent feuilleter simplement ce catalogue et activer, depuis Villigen, un robot qui récupérera les bonnes bandes, avant de les insérer dans le lecteur d’un ordinateur et de déclencher l’envoi au PSI.

Mais la collaboration avec le CSCS ne se limite pas à l’archivage des résultats de recherche. «Cela fait déjà quinze ans que nous utilisons le superordinateur du CSCS», explique Andreas Adelmann, directeur du Laboratoire de simulation et de modélisation au PSI. Car, pour simuler et modéliser des grandes installations et des expériences, par exemple, en sciences des matériaux ou en sciences de la vie, les chercheurs ont besoin d’énormes puissances de calcul. Ils les trouvent au Piz Daint du CSCS, l’un des superordinateurs les plus performants du monde. Alors qu’en 1941, Z3, le premier ordinateur librement programmable, pouvait exécuter tout juste deux additions par seconde, Piz Daint atteint aujourd’hui la barre de 25000 pétaflops par seconde, soit 25 milliards d’opérations de calcul, et ce 14000 fois plus vite qu’une carte graphique de Playstation 4.

Par principe, la recherche au PSI a besoin de modélisation et de simulation pour presque tout, que ce soit pour comprendre comment les fissures se propagent dans les matériaux ou pour analyser des compo-sants de piles à combustible.

Au milieu des données, Leonardo Sala dans la salle des serveurs de la Source de Lumière Suisse SLS. C’est là que se fait le stockage intermédiaire des données produites à la SLS et au SwissFEL.
(Photo: Scanderbeg Sauer Photography)

Les accélérateurs de particules – comme le cyclotron qui accélère des protons, la SLS ou le SwissFEL – ne sont pas seulement nouvellement construits, mais aussi développés et optimisés à l’aide de simulations. Celles-ci permettent en outre aux chercheurs de prévoir le déroulement probable d’une expérience et d’identifier d’éventuels problèmes dans le dispositif expérimental.

Autre raison pour laquelle le chercheur transfère volontiers – et en toute bonne conscience – ses données à Lugano: depuis 2013, Piz Daint est le super-ordinateur pétaflop le moins coûteux et le plus efficace du monde en termes énergétiques, car son refroidissement ne requiert pas de systèmes de climatisation gourmands en courant. C’est l’eau du lac de Lugano qui empêche la surchauffe des supercerveaux électroniques du CSCS. Cette eau, d’une température de 6 °C, est prélevée à 45 mètres de profondeur. Après usage, elle est renvoyée à une profondeur de 12 mètres. Et l’énergie potentielle de l’eau, produite en raison des différences de niveau, sert à générer du courant avec des turbines.

Texte: Christina Bonanati