INFRASTRUTTURA
Le finalità del consorzio HPC4DR sono quelle di aumentare la resilienza dei sistemi locali ai disastri naturali e antropici, fornendo a cittadini, imprese e istituzioni pubbliche scenari e simulazioni affidabili, in un’ottica di collaborazione sociale.
Per raggiungere questo obiettivo, l’analisi dati di eventi catastrofici passati e le simulazioni per la previsione di quelli futuri devono essere effettuate in centri di High Performance Computing (HPC), sfruttando le architetture parallele multi CPU e GPU per accelerare il calcolo.
I Laboratori Nazionali del Gran Sasso (LNGS) dell’Istituto di Fisica Nucleare sono stati scelti, nel 2020, dai partner di HPC4DR quale sede dell’infrastruttura di calcolo HPC per i seguenti motivi:
- Presenza del Servizio Calcolo e Reti: personale con trentennale esperienza nella gestione di infrastrutture tecnologiche e dati scientifici di più di 20 esperimenti su scala internazionale
- Collegamento e collaborazione con altri progetti di ricerca tecnologica in ambito HPC, HTC, Cloud gestiti dall’INFN
- Esistenza di una sala calcolo in grado di ospitare una infrastruttura HPC
- Collegamento alle reti della ricerca
PRIMA FASE
A gennaio 2022 è stato firmato l’accordo tra INFN e CINECA per la cessione gratuita del cluster GALILEO:
- 5 rack ciascuno dei quali contenente 72 nodi | 1 rack contenente 36 nodi di calcolo
- Ogni nodo è un Lenovo NeXtScale nx360 M5
- 2*Intel Xeon E5-2697 v4 @ 2.30GHz 18-core each (Broadwell)
- 128 GB di RAM/nodo, 3.5GB RAM/core
- Un totale di 396 nodi, 14256 core, 0.5 PFlops di potenza computazionale e una rete Intel Omnipath da 100 Gb/s.
Al momento il cluster comprende:
108 nodi di calcolo CINECA, 3888 core | 1 server con 4 GPU Nvidia A100 | 500TB di storage condiviso | Collegamento alla rete GARR
INIZIO ATTivitA’
Da ottobre 2023 il primo nucleo del cluster HPC è online e accessibile da parte della comunità scientifica di HPC4DR:
- Sono stati installati e configurati servizi di rete, autenticazione e autorizzazione
- Tutte le macchine sono state installate con Linux Rocky 8.6
- Sono stati installati compilatori, librerie (MPI, CUDA,…), software scientifici per il calcolo ad alte prestazioni
- È stato configurato il batch system SLURM, sistema di gestione delle priorità e l’accounting
- Sono state definite le policy e le procedure per la richiesta e la gestione degli account degli utenti
- Sono stati creati due nodi di public login per l’accesso ssh
- È stato configurato l’accesso web-based tramite Jupyter Notebook
- Un team di tecnologi e tecnici gestisce il supporto agli utenti
SECONDA FASE
Il centro HPC ai LNGS cresce. Nel corso del 2023 il centro HPC dei LNGS è stato inserito nel Centro Nazionale HPC, Big Data e Quantum computing, ICSC, finanziato dal PNRR, Piano Nazionale di Ripresa e Resilienza.
ICSC ha finanziato l’upgrade del CED con nuove risorse per il centro HPC presso i LNGS. Ciò ha consentito la predisposizione di:
- un’isola HPC capace di ospitare sistemi di calcolo e storage per una potenza totale di circa 400KW
- un sistema condizionamento dedicato ma ridondato
- un sistema di alimentazione ridondato e protetto da UPS
- sistema di sicurezza (accesso controllato)
- sistema rilevamento e spegnimento incendi
L’isola HPC permetterà di installare circa 400 server del CINECA e altre risorse di calcolo, finanziate da ICSC.
ICSC ha finanziato:
- 6 server con 4 GPU Nvidia H100
- 8PB di spazio disco (filesystem parallelo e Object storage)
- Rete interconnessione veloce Ethernet 100Gb/s
- Rete interconnessione veloce Infiniband (400Gb/s)
- Sistema di backup dei dati su nastro (LTO9)
- Update del collegamento dei LNGS alla rete della ricerca GARR (100Gb/s)
Queste risorse sono già state acquisite in parte e altre sono in via di acquisizione
IL FUTURO DEL CENTRO HPC AI LNGS
ll completamento dell’upgrade del CED (seconda metà del 2025) permetterà di installare tutte le risorse disponibili: più di 400 server per il calcolo ad alte prestazioni, 8 PB di spazio disco per i dati, reti di interconnessione (Infiniband, Omnipath, ethernet)
APPLICAZIONI DI RICERCA
A partire da ottobre 2023 i primi utenti hanno effettuato l’accesso al cluster HPC. Gli utenti hanno testato le funzionalità dell’infrastruttura HPC e hanno utilizzato le risorse di calcolo attualmente disponibili per le proprie attività di ricerca:
- Studio di terremoti storici
- Ricerca di segnali precursori di terremoti da satellite
- Monitoraggio solare e space weather
- Eventi di precipitazioni intense
- Stabilità ingegneristica
Dalla fine del 2025 il centro HPC dei LNGS sarà pronto a ospitare ed eseguire le applicazioni di nuovi gruppi di ricerca afferenti ai membri del consorzio HPC4DR.
Vi invitiamo a contattarci se siete interessati all’uso di queste risorse.
