GENCI, l’agence nationale en charge de mettre en œuvre la stratégie française en matière de simulation numérique par calcul à haute performance (HPC) et le CINES, le Centre Informatique National de l’Enseignement Supérieur, annoncent l’achat d’un supercaculateur Adastra. Cette annonce a été avec HPE et AMD. Ce HPC devrait être opérationnel dès le printemps prochain.
Ce nouveau supercalculateur, « Adastra », prend son nom de la locution latine « Per aspera ad astra » traduite par « Par des chemins ardus vers les étoiles ». Il fournira aux scientifiques français des capacités de calcul massives et innovantes pour leurs besoins complexes en simulation numérique, offrant une performance crête de plus de 70 PFlops/s, soit plus de vingt fois la puissance de calcul actuelle en production au CINES. Il renforcera par la même la position et les moyens de la recherche française sur la voie passionnante de l’Exascale.
GENCI a sélectionné l’offre de la société HPE autour d’un système HPE Cray EX. Le choix s’est fait sur des critères techniques basés sur une évaluation du coût total de possession (TCO), s’appuyant à la fois sur la performance soutenue et l’efficacité énergétique d’un ensemble pertinent d’applications académiques et industrielles de production mais aussi sur une future collaboration innovante et intégrée appelée « contrat de progrès », démarrant en novembre 2021, en avance de phase de la livraison d’Adastra, pour une durée de 2 ans.
Adastra sera basé sur une architecture de calcul convergée, équilibrée et modulaire, avec 2 partitions de calcul complémentaires, en réponse aux besoins variés de centaines d’utilisateurs quotidiens :
- Une première partition dotée de calcul scalaires dits manycores, chacun basé sur des processeurs de dernière génération EPYC « Genoa » d’AMD, avec 768 Go de mémoire DDR5 et un lien réseau 200 Gbs Slingshot 11 NIC ;
- Une seconde partition équipée de nœuds de calcul accélérés, chacun basé sur un processeur de 3e génération EPYC d’AMD avec 256 Go de mémoire DDR4, 4 accélérateurs de calcul AMD Instinct™ MI250X OAM, chacun avec 128 Go de mémoire HBM2e pour un total de 512 Go de mémoire rapide, et 4 liens réseau 200 Gbs Slingshot 11 NIC.
La partition accélérée devrait être mise à disposition au printemps 2022 tandis que le système complet sera opérationnel au dernier trimestre 2022.
Le système complet sera fédéré par un réseau haut-débit Ethernet HPE Slingshot élaboré pour les besoins en HPC et en intelligence artificielle (IA) et par un système parallèle de fichiers à 2 niveaux HPE Cray ClusterStor E1000 sous Lustre. Ce dernier offrira une capacité de stockage haut débit pour le premier niveau, basé sur des technologies full flash, de presque 2 Po à une bande passante de 1.3 To/s et de 24 Po à 250 Go/s pour le second niveau basé sur des technologies de disques rapides.
Dans le but d’optimiser la consommation globale d’énergie, la solution fournie par HPE est parmi les plus efficaces en refroidissant 97% de la chaleur générée par la machine par le biais d’un refroidissement liquide à eau chaude associé à un PUE de 1,10 amenant à une consommation soutenue maximale limitée à 1,59 MW.
Enfin dans le cadre du contrat signé, HPE et AMD sont engagés avec les équipes du CINES et les communautés d’utilisateurs dans un contrat de progrès d’une durée de 2 ans pour conjointement porter, optimiser et passer à l’échelle sur Adastra un ensemble d’applications HPC et IA. Les activités prévues dans le contrat de progrès s’appuieront sur la plateforme open-source AMD ROCm en utilisant les modèles de programmation HIP / OpenMP et les des outils de compilation et d’analyse, participant ainsi à l’effort global français en faveur du portage des applications scientifiques et industrielles vers l’Exascale.
Quelques éléments techniques supplémentaires :
– le réseau d’interconnexion est une technologie HPE Slingshot, spécialement développée par HPE pour les supercalculateurs de classe exaflopique qui utilise des câbles cuivre et des câbles optiques actifs.
– le stockage repose sur la plateforme HPE ClusterStor E1000 en technologie Flash, une solution Lustre intégrée, d’une capacité supérieure à 1,8 Po.
– une 1ère partition composée de nœuds de calcul accélérés, chacun équipé d’un CPU AMD et 4 accélérateurs GPU AMD. Une 2ème partition composée de nœuds de calcul scalaires, chacun équipé de deux CPU AMD
– un refroidissement direct à eau chaude qui dissipe plus de 97% de la chaleur dans l’eau