AMD EPYC Horizon, San Francisco - AMD EPYC Rome – najbrži serverski procesori na svijetu
Samo mjesec dana nakon puštanja u prodaju treće generacije stolnih procesora Ryzen, AMD je u San Franciscu lansirao serverske procesore EPYC, temeljene na istoj impresivnoj tehnologiji. S čak 64 fizičke jezgre po socketu, novi EPYC-i deklasirali su Intelovu aktualnu ponudu
Datum za lansiranje novih procesora nije odabran slučajno – Ryzeni 3. generacije lansirani su 7. lipnja, stigli su u dućane 7. srpnja, a novi EPYC-i lansirani su 7. kolovoza. Štoviše, AMD je događaj na kojem su lansirani nazvao EPYC HORIZON, a u slovu Z je na videozidovima snažnijom svjetlošću bila iscrtana brojka 7. Taj famozni broj odnosi se na TSMC-ov 7-nanometarski proizvodni proces, kojim su dobrim dijelom proizvedeni svi novi AMD-ovi procesori te Radeon GPU-ovi. Upravo je pristup ovom iznimno naprednom proizvodnom procesu, ali i Intelovi problemi s migracijom na proces finiji od aktualnog 14-nanometarskog, u velikoj mjeri odgovoran za AMD-ovu tehnološku i brzinsku dominaciju.
Veličina proizvodnog procesa ključna je za proizvodnju vrhunskih procesora. Omogućuje implementaciju procesora s više tranzistora, pa samim time i procesora s više jezgri, više cachea, dodatnim mogućnostima, nižom potrošnjom ili višim radnim taktom, pa time i performansama. AMD je do ove, druge, generacije EPYC-a na raspolaganju imao 14-nanometarski proces tvrtke Global Foundries, generacijski jednak Intelovom 14-nanometarskom, no tehnološki inferiorniji. S drugom generacijom Ryzena (koje nisu pratili EPYC procesori) prešlo se na 12-nanometarski proces iste tvrtke, u praksi proces iste klase kao 14-nanometarski, no s dodatnim unapređenjima. U sljedećem koraku naprijed GlobalFoundries više nije bio opcija jer je tvrtka odustala od razvoja naprednijih procesa, pa se AMD okrenuo svom starom partneru TSMC-u, kod kojeg je godinama proizvodio grafičke čipove. 7-nanometarski proces osigurao je dvostruku gustoću tranzistora, 25% viši radni takt, uz istu potrošnju ili upola potrošnje za isti radni takt, u odnosu na stariju tehnologiju.
Rafiniran proces
Paralelno s ovom nadogradnjom tehnologije koju je učinio AMD, Intel još uvijek praktički sve svoje procesore proizvodi 14-nanometarskim procesom. On jest rafiniran tijekom godina, no ne može pratiti TSMC-ov 7-nanometarski, u prvom redu glede gustoće tranzistora. 10-nanometarski proces trebao je biti implementiran još prije nekoliko godina, no prema Intelovim službenim izjavama, specifikacije prema kojima se inicijalno težilo bile su preagresivne, pa prva generacija procesa nikada nije ušla u HVM (High Volume Manufacturing). Druga generacija trebala bi biti bolja, no čini se da u praksi to baš i nije tako. Intel, naime, doista jest počeo s isporukom 10-nanometarskih procesora, no za sada samo mobilnih modela za ultra lake laptope. Xeoni temeljeni na novom procesu trebali bi stići krajem ove ili početkom sljedeće godine, no zanimljivo je da neće nuditi najviši broj jezgri od svih Intelovih Xeona.
TSMC-ovih 7 nanometara omogućilo je AMD-u da u sklopu EPYC-a druge generacije predstavi procesore s čak 64 fizičke jezgre, odnosno 128 logičkih, kad u cijelu priču ubrojimo podršku za SMT. Riječ je o procesorima koji rabe jednako ležište kao i EPYC-i prve generacije, pa samim time idu u 2S servere. Iako je Intel tehnički najavio 56-jezgrene Xeone iz obitelji Cascade Lake, riječ je o BGA procesorima koji su zalemljeni na matičnu ploču, odnosno Intel ih namjerava prodavati u obliku modula opremljenih s matičnom pločom i vodenim hlađenjem (zbog TDP-a od 400 W), koji se umeću u posebne 2U šasije. Kada govorimo o Xeonima koje je moguće kupiti i koji imaju jednak form factor kao AMD-ovi EPYC-i, najbolje što Intel nudi je 28 fizičkih jezgri.
Iz homogenog u heterogeno
No nije isključivo 7-nanometarski proces ono što EPYC-e čini posebnim. AMD je s ovom generacijom izveo još nekoliko hvale vrijednih pomaka. To su implementacija treće generacije arhitekture Zen (Zen, nakon Zen+ i Zen) te daljnja evolucija koncepta kombiniranja chipleta, odnosno više silicijskih pločica unutar jednog procesora s ciljem optimizacije proizvodnih troškova i performansi konačnog proizvoda. Tehnologija o kojoj govorimo implementirana je i u stolne procesore Ryzen 3. generacije, no u slučaju EPYC-a imamo nužne optimizacije za profesionalnu uporabu.
EPYC-i prve generacije i Ryzeni na razini silicija bili su posve identični, no to s novim EPYC-ima nije slučaj. Stolni i serverski procesori sada dijele chiplete na kojima su x86 jezgre, no IO chiplet kod EPYC-a znatno je moćniji nego kod Ryzena. IO chiplet kod starijih procesora nije ni postojao, a riječ je o novom tipu internog čipa u koji su izdvojeni svi dodatni kontroleri, poput memorijskog ili PCIe kontrolera. Dakle, esencijalno je riječ o komadu silicija koji ima funkcionalnost čipseta otprije 10 ili više godina. IO chiplet izrađen je 14-nanometarskim proizvodnim procesom GlobalFoundriesa, čime je AMD ubio tri muhe jednim udarcem – vrlo je vjerojatno da je ispunio obavezu kupnje 14/12-nanometarskih wafera od GlobalFoundriesa, osigurao je nižu cijenu proizvodnje (7 nm zasigurno više košta) te je iskoristio optimalan proces za sklopovlje koje je teško skalirati prema dolje. Izdvajanje x86 jezgri i pripadajućeg cachea omogućilo je AMD-u optimalnu upotrebu 7-nanometarskog procesa, odnosno postizanje maksimalne gustoće tranzistora.
IO chiplet, odnosno cIOD (chiplet IO Die) u slučaju EPYC-a izrađen je 14-nanometarskim procesom, a u sebi ima 8-kanalni memorijski kontroler, 128-kanalni PCIe 4.0 kontroler s podrškom za spajanje do 32 NVMe ili SATA uređaja, AMD Secure Processor te Infinity Fabric 2 sučelje za komunikaciju između socketa u 2S sustavu. Na cIOD su pomoću Infinity Fabric linkova povezani x86 chipleti koji u optimalnom slučaju imaju osam fizičkih jezgri i pripadajući cache prve, druge i treće razine. Takav raspored s centralnim komunikacijskim hubom uvelike je pojednostavio i topologiju procesora iz NUMA perspektive. 2S server sa starim EPYC-ima zbog međusobne je povezanosti chipleta, od kojih je svaki imao svoj memorijski kontroler, 8 NUMA domena i 3 NUMA udaljenosti u kontekstu latencija, a server s novim procesorima ima samo dvije NUMA domene (po jednu za svaki procesor) te dvije NUMA udaljenosti – lokalnu ili na drugi socket. Brzina sučelja Infinity Fabric također je povećana u odnosu na stariju generaciju – s maksimalnih 10,7 na 18 GT/s, odnosno propusnost od 202 GB/s.
Memorijski kontroler sada podržava 3.200-megahercne DR RDIMM ili LRDIMM module. S obzirom na to da jedan procesor ima osmokanalni memorijski kontroler, na razini 2S servera imamo maksimalnu propusnost od 410 GB/s, naprema Intelovih 282 GB/s (12 kanala, šest po procesoru, uz brzinu modula od 2.933 MHz). Maksimalna podržana količina memorije po socketu je golemih 4 TB.
Golemu prednost predstavlja i novi PCIe 4.0 kontroler koji nudi 128 kanala. Njih je moguće iskoristiti za spajanje kartice, NVMe SSD-ova, pa čak i SATA diskova. Točnije, tih 128 kanala interno je podijeljeno u osam x16 linkova, od kojih svaki podržava spajanje do 8 PCIe uređaja bez korištenja hardverskih razdjelnika na matičnoj ploči. Implementacija dvostruko bržeg PCIe sučelja omogućuje osjetno veće brzine NVMe SSD-ova (nove generacije, koji podržavaju istu razinu PCIe protokola), bržu komunikaciju s kompatibilnim GPU akceleratorima (primjerice, Radeon Instinct) ili, pak, korištenje ethernet i Infiniband kartica visokih performansi za spajanje servera u klastere. U San Franciscu takva je rješenja demonstrirala tvrtka Mellanox – ethernet i Infiniband kartice s 200-gigabitnim portovima.
Naposljetku, tu je i AMD-ov Secure Processor – 32-bitni mikrokontroler, temeljen na arhitekturi ARM (ARM Cortex A5). Riječ je o hardverskom Root of Trustu, koji vrti vlastiti sigurni kernel koji je instrukcijski nekompatibilan s OS-om koji se izvodi na x86 jezgrama. Taj zaštitni procesor postojao je i u starim EPYC-ima, no s novom generacijom doživio je nadogradnju u kontekstu mogućnosti kriptiranja memorije. Procesori EPYC nude mogućnost kriptiranja kompletne radne memorije, kao i kriptiranje memorije virtualnih strojeva koji se izvode na procesoru. Na prvoj generaciji EPYC-a bilo je moguće istodobno imati pokrenuto do 15 virtualki s kriptiranom memorijom. Nova generacija nudi do 509 ključeva, toliko da je sada ograničavajući faktor zapravo broj jezgri samog servera, jer nema smisla pokretati više od jednog VM-a po logičkoj jezgri sustava domaćina.
Zen 2
Na stranu to što jezgri u novim procesorima ima do dvostruko više, same za sebe one su istodobno i osjetno moćnije od onih u starijim procesorima. Zen 2 predstavlja prvu veću nadogradnju originalne Zen arhitekture, što je samo za sebe vrlo značajno. AMD-ovi inženjeri sa Zenom 2 pokazali su da znaju učiti na greškama pa nova arhitektura krpa mnoge rupe u kojima je prvi Zen bio slab. Prva od takvih manjkavosti bez sumnje je izostanak hardverske podrške za AVX2 instrukcije, zbog čega su stariji procesori u aplikacijama koje rabe te instrukcije imali loše performanse. Zen 2 ima 256-bitne AVX FPU registre, i samim time u tom smislu ima paritet sa Xeonima. Podrške za AVX-512 s druge strane još uvijek nema, zato što su inženjeri procijenili da je tranzistorski budžet bolje iskoristiv negdje drugdje.
Druga značajka koja upada u oči, dvostruka je količina L3 cachea – 4 MB po svakoj aktivnoj jezgri. Tijekom QA sesije na događaju u San Franciscu jedan japanski novinar upitao je predstavnika AMD-a kako to da nije dodano još kanala u memorijski kontroler, s obzirom na udvostručenje broja jezgri. Odgovor je bio da upravo dvostruko veći L3 cache uvelike kompenzira potrebe za višom memorijskom propusnošću. Intervenirano je i u L1 cache, čiji je instrukcijski dio smanjen sa 64 na 32 kB, uz paralelno udvostručenje brzine pristupa, što je rezultiralo višom učinkovitosti. Ušteđeni tranzistori iskorišteni su za udvostručenje kapaciteta micro-ops cachea, koji na Zenu 2 može držati 4 tisuće instrukcija – dvostruko više nego ranije.
Osim FPU dijela, koji je nadograđen 256-bitnim jedinicama, osjetno je nadograđen i dio za izvođenje operacija s cijelim brojevima. Dodana je još jedna jedinica za generiranje adresa (AGU), AGU scheduler je unificiran, ALU scheduleri su malko prošireni, baš kao i register file i reorder buffer. Na kraju, značajno je unaprijeđena i jedinica za predviđanje grananja. Kod originalnog Zena zvala se Perceptron, a kod Zena 2 zove se TAGE (Tagged Geometry). U osnovi, resursi ove jedinice udvostručeni su u odnosu na ranije, a rezultat je za trećinu manji broj pogrešnih predviđanja.
Sva ta unaprjeđenja rezultirala su značajno višim IPC-jem u odnosu na originalni Zen. Zen 2 jezgre u prosjeku su 15% brže samo zbog arhitekturalnih preinaka, ne računajući rast takta koji osigurava 7-nanometarski proizvodni proces. Pri radu s AVX2 instrukcijama rast performansi, naravno, daleko je veći. Zanimljivo je da se AMD na predstavljanju pohvalio daljnjim razvojem uspješne arhitekture. Dizajn Zena 3, koji će biti kombiniran sa 7nm+ procesom, već je gotov, a rad na Zenu 4 već je započet. EPYC-i temeljeni na Zenu 3 razvijat će se pod kodnim imenom Milan, a oni na Zenu 4 Genoa.
Neodoljiva ponuda?
Nova generacija EPYC-a stiže u nizu konfiguracija – od modela sa samo osam jezgri, do najmoćnijeg EPYC-a 7742 koji nudi čak 64 fizičke jezgre koje su implementirane preko osam 8-jezgrenih chipleta, koji su spojeni na zajednički IO chiplet izrađen 14-nanometarskim procesom. Upravo je taj najjači EPYC procesor druge generacije AMD iskoristio za demonstraciju moći nad Intelovom trenutačnom ponudom u obliku Cascade Lake Xeona. U odnosu na najmoćniji Intelov serverski procesor, Xeon Platinum 8280L s 28 jezgri, EPYC 7742 nudi 97% više cjelobrojne performanse (mjereno SPECrate Integerom 2017), 88% više performanse u operacijama s pomičnim zarezom (SPECrate Float 2017) te 84% više performanse u radu s Java kôdom, prema industrijskom testu SPECjbb2015 MultiJVM. Kompletnu listu novih procesora možete pogledati u priloženoj tablici, uz napomenu da modeli sa slovom P na kraju brojčane oznake ne podržavaju ugradnju u 2S servere, pa stoga imaju i bolju cijenu. Valja naglasiti da svi procesori imaju jednako moćan PCIe i memorijski kontroler te sigurnosni ARM procesor. Posebno je zanimljiv model EPYC 7502, koji po cijeni od samo 2.600 dolara donosi 32 fizičke jezgre u okviru TDP-a od 200 W. Dakle, četiri jezgre više u odnosu na Xeon 8280L, za otprilike jednu petinu cijene Intelova procesora.
Općenito, novi EPYC-i u svim tržišnim segmentima nude više performanse od aktualnih Intelovih procesora te 25 do 50 posto niži TCO, odnosno Total Cost of Ownership. To su prepoznali i brojni AMD-ovi partneri pa će na Rome EPYC-ima biti dvostruko više platformi u odnosu na prvu generaciju tih serverskih procesora.
Kao i u slučaju Ryzena, zadržana je kompatibilnost sa starijom infrastrukturom, iako, naravno, stižu i posve novi serveri, dizajnirani u skladu s mogućnostima najnovijih EPYC-a. HPE i Lenovo već nude servere za narudžbu (HPE – ProLiant DL325, ProLiant DL385 i Apollo 35; Lenovo – SR635 i SR655), a Dellovi PowerEdge serveri stići će najesen. Naravno, tu su i manji partneri poput SuperMicra, Tyana, Asusa, Gigabytea i drugih, koji su svoje proizvode izlagali u sklopu događaja EPYC Horizon.
Kao što smo spomenuli u uvodu, AMD trenutačno nudi najbrži serverski x86 procesor na svijetu, a svoju prednost nad Intelom demonstrira s preko 80 prvih mjesta u različitim industrijskim testovima i kategorijama. Zanimljivo je da testiranja, odnosno rezultate, nije kvalificirao AMD, već AMD-ovi partneri. HP-ovi sustavi, primjerice, odgovorni su za 37 od tih osvojenih prvih mjesta.
Ukratko, nova generacija procesora EPYC ne samo da je brža od aktualne Intelove ponude, u nekim slučajevima i do dvaput, već istodobno nudi i osjetno niže cijene, naprednije mogućnosti te konzistentnost specifikacija i mogućnosti unutar kompletne ponude procesora, čime se Intel nije u stanju pohvaliti. Na krilima takve ponude, očekivanja AMD-a da će unutar četiri do šest kvartala utrostručiti tržišni udio u segmentu 2S servera čini se pomalo konzervativnim. Naime, na kraju prošle godine AMD je na tržištu 2S servera držao samo 4%.
NAPOMENA: Ovaj tekst je izvorno objavljen u časopisu Mreža.