Detaljna raspodjela generacija akceleratora i grafičkih procesora

Računalni klaster Isabella nadograđen je na 104 računalna čvora s ukupno 2.496 procesorskih jezgri. Jedini grafički procesori koje Srce nudi jesu 36 grafičkih procesora Tesla M2075 nabavljenih 2011. godine u okviru CRO NGI infrastrukture. S obzirom na starost oni sada ne omogućavaju značajno ubrzavanje aplikacija te su upotrebljivi samo za testiranje. Stoga je u 2018. godini provedeno proširenje računalnoga klastera Isabella s grafičkim procesorima, navodi predstojnik Sektora za računalne sustave Srca Emir Imamagić u novom broju Srce novosti.

Grafički procesori u naprednom računarstvu

Superračunala svijeta natječu se dva puta godišnje na prestižnoj listi TOP500 (http://top500.org/). Lista se sastoji od 500 najmoćnijih superračunala rangiranih prema rezultatima mjerenja programskim paketom za mjerenje učinkovitosti HPL (High-Performance Linpack). Na listi iz lipnja 2018. godine čak 110 od prijavljenih 500 superračunala koristilo je neki oblik akceleratora ili koprocesora uz klasične procesorske jezgre. Od toga je čak 96 koristilo grafičke procesore NVIDIA.

Detaljna raspodjela generacija akceleratora i grafičkih procesora prikazana je na Grafu 2. Posljednja generacija grafičkih procesora NVIDIA – Tesla V100 zasnovana na arhitekturi Volta namijenjena je za područje naprednog računanja, ali i područje umjetne inteligencije i dubokog učenja. Uz 5.120 grafičkih procesorskih jezgri CUDA, Tesla V100 raspolaže i s 640 procesorskih jezgri tensor optimiziranih za aplikacije iz područja umjetne inteligencije. Učinkovitost jednog grafičkog procesora V100 je 7 TFLOPS-a (floating point operations per second) za područje naprednog računanja te 112 TFLOPS-a za područje umjetne inteligrencije.

Grafički procesori u Isabelli

U okviru proširenja računalnoga klastera Isabella s grafičkim procesorima nabavljena su tri poslužitelja Dell PowerEdge C4140 s po:

– 4 grafička procesora NVIDIA Tesla V100

– 2 procesora Intel Xeon Silver 4114 s ukupno 20 procesorskih jezgri

– 384 GB radne memorije

– Lokalnog spremišta od 3.2 TB NVMe SSD diska.

Arhitektura računalnog klastera Isabella

U tijeku je testiranje čvorova s grafičkih procesora, prilagodba klasterskih posredničkih sustava za podnošenje poslova i nadzor i prevođenje i testiranje korisničkih aplikacija za grafičke procesore. Novi čvorovi bit će dostupni korisnicima do kraja studenog 2018. godine. Teoretska maksimalna učinkovitost ovog proširenja je 84 TFLOPS-a što je gotovo duplo više od učinkovitosti zadnjeg velikog proširenja s VELEbitom koji se sastojao od 1.792 procesorske jezgre i 4,5 TB radne memorije.

S tim proširenjem Isabella će biti prvi sustav u Hrvatskoj koji pruža procesorske jezgre tensor optimizirane za područje umjetne inteligencije. Kako broj aplikacija u tim područjima rapidno raste u svijetu, vjerujemo da će ovo proširenje infrastrukture biti značajan iskorak i za sve hrvatske istraživače, navodi Emir Imamagić.

Računalni klaster Isabella je zajednički računalni resurs svih znanstvenika i istraživača u Hrvatskoj namijenjen izvođenju zahtjevnih računanja (High Performance Computing – HPC) za potrebe istraživačkih projekata.

Novi spremišni sustav

Računalni klaster Isabella je korisnicima pružao dva spremišna sustava za pohranu podataka:

– sustav za pohranu dugotrajnih podataka (/home) kapaciteta 110 TiB čije je zauzeće 75%

– sustav za pohranu privremenih podataka (/shared) kapaciteta 90 TiB čije je zauzeće 56%.

Oba sustava su uspostavljena korištenjem raspodijeljenoga datotečnog sustava BeeGFS, verzija 2015. Sustavi su uspostavljeni na zastarjeloj računalnoj opremi nabavljenoj 2011. godine. Stoga je provedena uspostava novoga spremišnog sustava.

U rujnu 2018. godine dovršena je uspostava novoga spremišnog sustava ukupnog kapaciteta

765 TiB. Spremišni sustav koristi novu verziju raspodijeljenoga datotečnog sustava BeeGFS 7, koja koristi novi, učinkovitiji format spremanja podataka te omogućava grupiranje različitih diskova u grupe (storage pools). Na taj način je moguće napraviti grupu diskova za dugotrajnu pohranu, učinkovitu kratkotrajnu pohranu te pohranu na visoko učinkovite SSD (Solid State Drive) diskove.

Novo spremište je uspostavljeno na šest poslužitelja HPE ProLiant DL380 Gen10, svaki s po 16 x 10 TB diskova za spremanje podataka i 2 x 480 GB SSD diska za potrebe imeničkih servisa. Poslužitelji su umreženi računalnim mrežama 10 Gb/s Ethernet i FDR Infiniband, što omogućava jednako učinkovit rad i s pristupnog čvora i radnih čvorova. Novi spremišni sustav omogućava agregirano čitanje i pisanje datoteka brzinom od 14 GB/s.

Nadogradnja Isabelle

Napravljena je i nadogradnja klastera Isabella na novu verziju operacijskoga sustava CentOS 7. Uspostavljen je novi pristupni čvor s operacijskim sustavom na adresi teran.srce.hr, a radni čvorovi su reinstalirani na novi operacijski sustav i preseljeni u novi klaster po završetku aktivnih korisničkih poslova.

Dinamika selidbe i iskorištenje

Na novom klasteru su uspostavljene i nove verzije programskih biblioteka i korisničkih aplikacija:

– tri verzije Intel prevodilaca i biblioteka: 2017, 2018 i 2019

– dvije verzije programskih knjižnica MPI (Message Passing Interface): MVAPICH2 i OpenMPI

– korisničkih aplikacija Amber, Abinit, Beast, Gromacs, MCNP, ORCA i Quantum Espresso.

Sve nove komponente dokumentirane su na osvježenim stranicama računalnog klastera Isabella: https://wiki.srce.hr/display/RKI.

Dugoročni cilj je angažirati najaktivnije korisnike pojedinih zajednica da doprinose razvoju i unaprjeđenju dokumentacije, pogotovo konkretnim primjerima skripti za podnošenje poslova za pojedine korisničke aplikacije.

Reorganizacija redova poslova

U okviru nadogradnje računalnoga klastera Isabella provedena je analiza korisničkih poslova podnesenih u 2017. i 2018. godini. Analizom je ustanovljeno da je u 2017. godini samo 0,6% od ukupno 115.645 uspješno izvedenih poslova trajalo dulje od 7 dana. U 2018. godini ih je bilo tek 1.2% od ukupno 86.955 uspješno izvedenih poslova.

Temeljem rezultata dobivenih analizom te zahtjeva korisnika izraženih tijekom zadnjeg godišnjeg sastanka korisnika računalonoga klastera Isabella napravljena je reorganizacija redova poslova. Reorganizacijom je ograničeno trajanje poslova na sedam dana na osam poslužitelja HP ProLiant SL230s Gen8 i 64 poslužitelja Lenovo NeXtScale nx360 M5. Na 24 poslužitelja HP ProLiant SL250s te čvorovima spojenim u jedinstveni virtualni računalni sustav (Single System Image SSI) pomoću sustava ScaleMP nije uvedeno ograničenje trajanja poslova.

Za potrebe izvođenja velikih paralelnih poslova uspostavljen je novi red poslova s 16 poslužitelja Lenovo NeXtScale nx360 M5 na kojima je moguće uzimati isključivo cijele čvorove. Taj red će omogućiti učinkovitije izvođenje velikih paralelnih aplikacija koji zahtijevaju 28, 56 ili više procesorskih jezgri. Tim računalnog klastera Isabella aktivno će pratiti izvođenje korisničkih poslova u novoj okolini te će se po potrebi raditi daljnje prilagodbe pojedinih redova poslova, navodi Srce novosti.

Podijeli: