Szerző: Bodnár Ádám

2014. szeptember 12. 11:22

Mire jók a Haswell-EP Xeonok?

Az Intel hétfőn, egy magyar idő szerint este tartott webcastban leplezte le Xeon E5-2600 v3 generációs processzorait és tette közzé egyúttal a velük készült teljesítménytesztek eredményeit. Lássuk, hogy muzsikálnak ezek a chipek a klasszikus szerverfeladatok alatt.

Immár harmadik generációjánál jár az Intel Xeon E5-2600 processzorcsalád, a Sandy Bridge generációval megkezdett sorozat után viszonylag logikus lépés volt a műszakilag kis előrelépést jelentő, azonos foglalatba illeszkedő Ivy Bridge generációs processzorokat v2-vel jelölni. A teljesen új platformot igénylő Haswell-EP kódnevű lapkák v3 jelzéssel érkeznek.

Nyers processzorteljesítmény

A nyers CPU-teljesítményt vizsgáló benchmarkok között klasszikus a SPEC CPU2006, amely változatos kódok alatt vizsgálja a gépek sebességét. Az integer műveletvégző képességet mérő tesztben olyan feladatok vannak mint kódfordítás, tömörítés, sakkfeladvány megoldása, hálózati szimuláció és XML-konvertálás, a lebegőpontos tesztek pedig mérnöki-tudományos feladatokból állnak például áramlástani modellezésből, végeselem-analízisből, időjárás-modellezésből és beszédfelismerésből.

SPEC CPU2006 pontszám (a magasabb a jobb)

Az új, Haswell-EP generációs Xeonok integer és lebegőpontos tesztekben is jelentőset lépnek előre az Ivy Bridge-EP kódú elődeikhez képest. A publikált adatok alapján a SPEC CPU2006 tesztben majdnem 50 százalékkal javult a v3, a lebegőpontos tesztek alatt pedig a gyorsulás mértéke megközelíti a 40 százalékot. A teszthez használt E5-2699 v3 névleges órajele (2,3 GHz) ugyan alacsonyabb mint az előd E5-2697 v2-é (2,7 GHz), de másfélszer annyi magot vonultat fel.

Szervereket azonban ritkán vásárolnak egy évre még számításintenzív feladatok alatt is, érdemes a v3 sebességét a Sandy Bridge generációs Xeonokkal vagy akár az Opteronokkal is összehasonlítani. Itt a fejlődés még szembetűnőbb, az E5-2690-hez képest mindkét területen majdnem kétszeres a növekedés és a leggyorsabb Opteronhoz képest integer műveletek alatt majdnem háromszoros, a lebegőpontos tesztben pedig majdnem kétszeres, pedig a magok száma csak néggyel több a Xeon-alapú konfigurációban, a névleges órajel pedig alacsonyabb. Ennek magyarázatát a hatalmas, 45 megabájtos L3 cache szolgáltathatja, a SPEC CPU lebegőpontos tesztjei "szeretik" a nagy cache-eket.

SPEC CPU2006 pontszám (a magasabb a jobb)

Nyers processzorteljesítményt vizsgáló tesztek egyelőre csak az E5-2699 v3 modellel készültek, a tipikusan nagy processzorteljesítményt igénylő feladatok (pl. mérnöki-tudományos alkalmazások) futtatására azonban aligha ezek a méregdrága csúcsváltozatok lesznek a keresettek, hanem a kisebb magszámú, magasabb órajelű verziók - a kínálatban szerepel például 3,5 GHz-es hatmagos példány, illetve 3,1 GHz-es tízmagos verzió is, kifejezetten munkaállomások számára, W jelöléssel, 160 wattos TDP-vel. Az ezekkel végrehajtott tesztek eredményeire azonban egyelőre várni kell.

Lássuk, mire elég ez a nyers teljesítmény klasszikus szerverfeladatok alatt. Az egyik ilyen a Java programok futtatása, az Intel partnerei a mostani Xeon-generáció rajtjakor végleg szakítottak az elavult SPECjbb2005 benchmarkkal és a gépek teljesítményét SPECjbb2013 alatt adták meg.

Java szerverfeladatok

A viszonylag friss benchmarkkal egyelőre kevés teszteredményt publikáltak a gyártók, az azonban látszik hogy az új Xeon toronymagasan vezeti a mezőnyt, 160 ezer pont feletti legjobb eredménye az előző generációval összevetve majdnem háromszoros ugrást jelent. Itt azonban érdemes megjegyezni, hogy ez a teszteredmény egy 1 terabájt (!) memóriát tartalmazó gépen készült, míg a Xeon E5-2697 v2 rendszert a teszt futtatása idején (tavaly) csak 128 gigabájt tárral konfigurálták. Nagyobb memóriakapacitás mellett alighanem jobb eredmény született volna a régebbi Xeontól is, de a DDR4 nagyobb sávszélessége és a nagyobb magszám valószínűleg még akkor is a Haswell-EP javára döntötte volna el a meccset.

SPECjbb2013 pontszám (a magasabb a jobb)

A magszám növekedése miatt a Xeon E5-2699 v3 eredményeit már négyfoglalatos gépek eredményeivel sem szentségtörés összevetni - ennyi processzormagot nemrég csak a kétutasaknál jóval drágábban megvehető konfigurációk kínáltak ugyanis. Az Haswell-EP még egy ilyen összehasonlításban is állja a versenyt, a POWER8-tól alig marad el a teljesítménye - igaz, az IBM processzora alacsonyabb magszám mellett hozza ezt a sebességet. A Fujitsu tavasszal bemutatott új SPARC64 X+ chipje viszont majdnem kétszeres magszámmal se közelíti meg a Xeon sebességét.

Itt már sok múlhat a szoftvergyártók árazási politikáján, az Oracle például a SPARC64 X+ és a Xeon magjaira csak fél licenc vásárlását írja elő, míg a POWER8 felhasználóinak teljes licencet kell venniük, így összességében 32 (SPARC) vagy 18 maglicenc (Xeon) áll szemben 24-gyel (IBM POWER8). Mivel több tízezer dolláros értékű licencekről van szó, a hardver választása akkor is kritikus a gazdaságosság szempontjából, ha a szerverek ára közötti különbség amúgy nem jelentős - a SPEC nem követeli meg a tesztkonfigurációk "beárazását", úgyhogy erre vonatkozó következtetést nem tudunk levonni, mindazonáltal az IBM aligha a kétfoglalatos Xeon konfigurációk szintjére árazza négyprocesszoros POWER8 gépét.

SAP 2-tier Sales and Distribution

Az SAP 2-tier Sales and Distribution (SAP SD) tesztje a szervergyártók egyik kedvence és persze az Intel is publikált ilyen teszteredményeket a Haswell-EP Xeonokkal. Az eredmény nyilván nem meglepő, kétfoglalatos kategóriában az E5-2699 v3 jelenti a csúcsot jelenleg, az előző generációhoz képest a fejlődés majdnem 60 százalékos, két generációra visszatekintve pedig szinte duplázódott a sebesség. Még inkább figyelemre méltó ez a növekedés, ha tudjuk, a 87 ezer pont feletti teszteredményt 256 GB memória mellett produkálta az új Xeon, tehát nem kellett olyan "extrém" kapacitású gépet csatasorba állítani mint a fenti Java tesztben.

SAP 2-tier SD SAPS (a magasabb pontszám a jobb)

Égbe révedő informatikusok: az Időkép-sztori

Mi fán terem az előrejelzés, hogy milyen infrastruktúra dolgozik az Időkép alatt, mi várható a deep learning modellek térnyerésével?

Égbe révedő informatikusok: az Időkép-sztori Mi fán terem az előrejelzés, hogy milyen infrastruktúra dolgozik az Időkép alatt, mi várható a deep learning modellek térnyerésével?

Ismét adja magát az összevetés a négyfoglalatos gépekkel, a kétutas Opteront és a POWER7+ chipet még fele annyi foglalattal is maga mögé utasítja a 36 magon 72 programszálat futtató kétfoglalatos Xeon rendszer, a 4 POWER8-at csatasorba állító IBM szerver viszont jó harmadával gyorsabb, miközben a magszáma is alacsonyabb. Az SAP tesztben nem kell a rendszer költségét megadni, így ár-érték arány boncolgatásába nem nagyon lehet belemenni.

Virtualizáció

A nagy magszám és a megnövelt memória-sávszélesség (illetve az Intel által a processzorokkal együtt bemutatott 2x40 GbE hálózati vezérlő) vonzóvá teszi az új Xeonra épülő szervereket virtualizációs platformként bevetni. A virtualizációs feladatok alatt nyújtott teljesítmény mérésére is van benchmarkja a Standard Performance Evaluation Councilnak (SPEC), a SPECvirt_sc2013 virtualizált környezetben futtat néhány SPEC benchmarkot és azt méri, hogy megadott szolgáltatási szintek (válaszidők) mellett hány virtuális gép képes futni és ezek mekkora teljesítményt érnek el.

SPECvirt: vízszintes tengelyen a teljesítmény, függőlegesen a VM-ek száma

A mellékelt táblázatban látható, hogy az E5-2699 v3 az elődjénél jóval több virtuális géppel megbirkózik és ezeket nagyobb teljesítménnyel is tudja futtatni, hála a több magnak és a nagyobb sávszélességnek, na meg az 512 gigabájt memóriának - a korábbi generációs Xeonnal csak 256 gigabájttal készült mérés akkoriban. Az eredményt össze lehet vetni négyfoglalatos gépekkel is, az IBM POWER8-at magabiztosan előzi meg az új Xeon, de a legújabb négyfoglalatos Xeonnal már nem bír, igaz, azok a chipek összesítve közel kétszeres magszámmal rendelkeznek és a rendszermemória is 1 terabájt volt a méréskor.

Tranzakciófeldolgozás

Onine tranzakciófeldolgozási teljesítményt egyelőre csak a TPC-H benchmarkban publikált az Intel. Ez a feladat egy döntéstámogatási rendszer működését szimulálja párhuzamosan végzett tranzakciókkal, illetve az 1000 gigabájtos adattömegen futtatott komplex lekérdezésekkel.

TPC-E tranzakció/óra (a magasabb szám a jobb)

A két Xeon E5-2699 v3 processzort felvonultató HP ProLiant DL380 Gen9 eredménye ezen a teszten 390 ezer lekérdezés/óra feletti, ez az E5-2690 v2 chipekkel szerelt, tehát Ivy Bridge generációs gép teljesítményének majdnem kétszerese. A TPC-H teszt valamiért nem túl népszerű a gyártók körébem, az utóbbi 3 évben publikált eredmények száma alig tucatnyi az 1000 gigabájtos kategóriában. A kétfogalatos ProLiant teljesítményét viszont össze lehet vetni nagyobb versenytársakkal, ebből jól látszik, hogy az eredmény Xeonok esetén jól együtt mozog a magok számával.

Mivel a TPC tesztek jegyzőkönyvében az adott konfiguráció ára is benne van, itt már érdemes pénzről is beszélni. A ProLiant DL380 Gen9 szerver ára 42 ezer dollár két E5-2699 v3 processzorral és 768 gigabájt memóriával konfigurálva, ehhez egy 138 ezer dolláros storage tartozik, valamint 244 ezer dollárnyi szoftverlicenc, ami 424 ezer dolláros összköltséget jelent. A négyfoglalatos ProLiant DL580 (60 Xeon mag) esetén a hardver ára mintegy 100 ezer dollárral magasabb, de itt már 600 ezer dolláros storage és 407 ezer dollárnyi a szoftverlicenc, így a számla bőven egymillió dollár fölé rúg - igaz, az elért teljesítmény 520 ezer lekérdezés/óra feletti, vagyis harmadával több.

A Fujitsu 64 magos rendszere ilyen szempontból gazdasági totálkár, 59 ezer dolláros hardverköltségért, 200 ezer dolláros storage költségért és 255 ezer dolláros szoftverköltségért (szumma 510 ezer dollárért) alacsonyabb teljesítményt ad mint a kétfoglalatos Xeon-alapú gép. Itt egyébként jól látható, hogy a gyártók mára mennyire agresszíven árazzák a négyfoglalatos gépeiket, az "egzotikus" SPARC rendszer hardverköltsége "csak" másfélszerese a kétutas HP ProLiantnek.

Energiahatékonyság

A Haswell-EP generációs chipek továbbra is 22 nanométeres eljáráson készülnek, az Intel különféle mikroarchitektúrás trükközéssel igyekezett javítani az energiahatékonyságot, miközben a korábbi chipeknél több magot és nagyobb L3 cache-t integrált. A SPEC egy jó ideje kínál iparági szabványos energiahatékonysági tesztet is, amely a SPECjbb2008 benchmark futtatása alatt vizsgálja a teljesítményt és fogyasztást és ebből alakít ki egy szimpla pontszámot, amely alapján összevethetők a különféle rendszerek. A Xeon E5-2600 v3 család üdvöskéje a mezőnyt nem csak a kétfoglalatos konfigurációk mezőnyében vezeti, hanem globálisan is - igaz, az eddig publikált közel 500 teszt javát amúgy is Xeon-alapú konfigurációk teszik ki, csak elvétve találni egy-két Opteront.

SPECpower pontszám (a magasabb a jobb)

Összegzés

Az Intel által végzett tesztek kivétel nélkül az E5-2699 v3 processzorral készültek, amely az új, 18 magos, 45 MB L3 cache-es csúcsverzió, ennek megfelelően az ára is magas, 4115 dollárba kerül listaáron. Előd nélküli új modell még az E5-2698 v3, amelynek 16 magja van és 40 MB harmadszintű gyorsítótárja, névleges órajele egyébként a 2699 v3-mal megegyező 2,3 GHz, bár ennek a Turbo, illetve AVX Turbo mód miatt egyre kevésbé van jelentősége. Továbbra is elérhető a korábbi generációs Xeon 12 magos csúcskivitelével "egyenértékű" E5-2697 v3, de ez is 14 maggal és 35 MB L3 cache-sel rendelkezik, listaára 2702 dollár.

A cikknek nincsenek és nem is lehetnek igazán meglepő tanulságai: az új Xeon teljesítmény terén látványos előrelépés az egy éve megjelent generációhoz képest is, a régebbi modellekkel összevetve pedig még nagyobb a különbség. Ennek fő oka a látványosan megnövekedett magszám, szerencsére ehhez a DDR4 révén magasabb memória-sávszélesség is társul, a lebegőpontos kódok alatt pedig az AVX2 segít egyes esetekben. Igaz, ezt magasabb áron is méri az Intel, az E5-2699 v3 jó másfélszer drágább a korábbi generáció csúcsmodelljénél, de fentebb már szó volt róla, a processzoronkénti 1400 dolláros árkülönbség szinte semmit sem jelent, amikor több tízezer dollár értékű szoftverlicenceket kell számolni.

Energiahatékonyság terén pedig a legnagyobb vívmány talán az, hogy az elődnél 50 százalékkal több mag és a hatalmas cache belefért egy kezelhető fogyasztási keretbe, az új Xeonoknak nincs extrém energia- vagy hűtési igénye.

Nagyon széles az a skála, amin az állásinterjú visszajelzések tartalmi minősége mozog: túl rövid, túl hosszú, semmitmondó, értelmetlen vagy semmi. A friss heti kraftie hírlevélben ezt jártuk körül. Ha tetszett a cikk, iratkozz fel, és minden héten elküldjük emailben a legfrissebbet!

a címlapról