Szerző: Bizó Dániel

2010. február 16. 12:43

Kétvállra fekteti a konkurenciát az IBM Power7

Egy hete jelentette be a Power7 processzorát az IBM, és azóta nyilvánosságra kerültek az első teljesítményadatok is. A chip hatalmas ugrást jelent, és bár a rivális architektúrák többsége is megújul néhány hónapon belül, az IBM fölénye meggyőző.

Az IBM múlt héten négy Power7-alapú szervert jelentett be, amelyekkel a piac gerincét igyekszik lefedni. Ez a négy szerver lényegében kettő, egy négyfoglalatos (750 Express) és egy nyolcfoglalatos (780), amelyeket az IBM tovább szegmentált, így megszületett a HPC-t célzó 755, valamint a néhány extra képességtől megfosztott 770.

Amint azt már korábban megírtuk, az IBM 45 nanométeres gyártástechnológiáján készülő Power7 nyolc processzormagot és harmadszintű gyorstárként 32 MB beágyazott DRAM-ot (eDRAM) integrál egyetlen szilíciumszeletre. A chip kettő négycsatornás DDR3 memóriavezérlővel és nagysebességű pont-pont összeköttetésekkel rendelkezik más processzorok és a periféria irányában, így foglalatonként 100 GB/s effektív memória- és 360 GB/s interprocesszor sávszélességgel bír, és ehhez csatlakozik még a dedikált I/O busz. A Power7 rendelkezésére álló sávszélesség minden tekintetben felülmúlja a Power6-ot, a magok számának megnégyszereződésével azonban szüksége is van minden bitre, ha etetni akarja azokat.

Az IBM alapjaiban dolgozta át a magokat annak érdekében, hogy a csökkenő órajelek és a magonkénti memória- és kommunikációs erőforrások ellenére azok leadott teljesítménye ne essen vissza. Emiatt ismét megjelent az agresszív soron kívüli ütemezés, az egyidejű többszálú végrehajtás 4 fonálra bővült (chipenként 32 szál), szélesedtek a magok, és több végrehajtóegységgel rendelkeznek. Mindez azt szolgálta, hogy a lehető legmagasabb fokú műveleti párhuzamosságot érjék el a magokon belül. Az IBM egy olyan architektúra kidolgozását tűzte ki célul, amely minden dimenzióban jelentős teljesítménynövekedést hoz magával, így az szálankénti, magonkénti, foglalatonkénti és rendszerszintű teljesítményben egyaránt.

\"\"

A Power7 teljesítménykoncepciója (nem valós adatok)

Különösen nagy népszerűséget remélhet a 750 Express, amely négyfoglalatos felépítésével lényegében a belépőkategória közelében található. A nyolcmagos Power7 chipeknek köszönhetően azonban mindez nem kevesebb mint 32 nagy teljesítményű magot takar, amivel inkább középkategóriásnak tekinthető. A legrészletesebb képet a Power7 rendszerszintű teljesítményéről jelenleg ez a rendszer adja, a többi konfigurációval készült benchmarkok várhatóan majd idővel érkeznek, ahogyan az IBM tesztlaborjaiban igyekeznek a lehető legjobb számokat kicsiholni belőlük, ami hosszadalmas és költséges procedúra.

Tarol

Az IBM mérnökeinek erőfeszítései meghozták eredményüket. Az IBM saját relatív teljesítménymetrikái alapján a négyfoglalatos, 3,55 gigahertzes processzorokkal szerelt Power 750 több mint négyszeres feldolgozási kapacitást kínál az 5 gighertzes Power6 processzorokkal kiépített Power 550 rendszerrel szemben. A különféle saját és iparági (pl. SPEC, TPC) benchmarkok AIX operációs rendszerben történő méréseit összegző IBM rPerf mutató a Power 750 esetében 331, ami 4,2-szerese az 550 pontszámának, míg az i5/OS környezet alatt 4,8-szoros a becsült átlagteljesítmény. Mindez egyúttal azt is jelenti, hogy még egy 3,55 GHz-es Power7 magonkénti teljesítménye is átlagosan 5-20 százalékkal magasabb mint az 5 GHz-es Power6 egy magja, legalábbis az IBM saját referenciaszámai alapján.

Az IBM saját teljesítménymetrikái

\"\"

Forrás: IBM.com

A leginkább a számításintenzív tudományos-mérnöki feladatokra (HPTC) releváns SPECCPU2006 tesztcsomagban szintén letaglózó a Power7 fölénye a négyutas rendszerek körében. A Power6-hoz viszonyítva még nagyobb az előnye mint az IBM saját belső, üzleti feladatokat is alkalmazó metrikájában. A fixpontos számításokat végző kódok futtatásában közel ötször, míg a lebegőpontos számítások esetén 4,6-szer olyan gyors. Nem triviális, lebegőpontos számításokban miért nem jobb ennél is a Power7, mivel az magonként kettővel több vektoros egységet kapott, mint a Power6, így elméletileg magonként 60 százalékkal nagyobb csúcsteljesítményre képes, valószínűleg az effektív sávszélesség  fogy el. A Power7 nemcsak kritikus üzleti szerverek, hanem szuperszámítógépek építőeleme is lesz, mivel egy amerikai kormányzati szuperszámítógépes fejlesztési program része.

Négyfoglalatos rendszerekben mért HPC teljesítmény

\"\"

Forrás: SPEC.org

A riválisok közül a legközelebb a hatmagos Opteron sorozat áll, azonban így is alig éri el a Power7 szintjének 40 százalékát. A Power7 piacon legádázabb ellenfelei, az Itanium és a SPARC természetesen sehol sincsenek, mivel már a Power6-tal sem tudták tartani a lépést.

A foglalatonkénti és rendszerszintű mérések mellett a magonkénti teljesítmény továbbra is fontos, ami egyes szoftverek párhuzamosíthatósági korlátja mellett a szoftverek licencelése szempontjából is érdekes. A HWSW hasábjain már sokszor elhangzott, de fontos megemlíteni, hogy az üzleti célú szoftverek nagy szállítói közül többen is alkalmaznak részben vagy egészében processzormagonkénti szoftverlicencelést, így az Oracle, az IBM és a HP is. A Power7 itt is kimagaslik a mezőnyből, és felül tudja múlni a Power6-ot, ami egészen lenyűgöző produkció, figyelembe véve  a chip masszívan párhuzamos felépítését.

Magonkénti számítási teljesítmény

\"\"

Forrás: SPEC.org

Azok számára, akiknek ez a magonkénti teljesítmény sem elég, az IBM a Power 780 dobozokban felajánlja a TurboCore opciót. Ekkor a rendszerben található Power7 chipek magjainak csak fele aktív, és ezek hozzájutnak a felszabaduló L3 tárterülethez és memóriasávszélességhez, valamint megnövelik órajelüket, akár 4,1 GHz fölé is. Egy nyolcfoglalatos Power 780 gépben TurboCore bevetésével, 32 aktív maggal a magonkénti teljesítmény további 36 százalékkal gyorsul SPECint_rate, míg a SPECfp_rate 50 százalékkal - mindez alátámasztja a szűkös sávszélességről szóló fenti elméletét. Igaz, hangsúlyozzuk, ez már egy 8 foglalatos konfiguráció, ez azonban felülírhatja a magonkénti teljesítményen megspórolható szoftveres (fejlesztési vagy licencelési) költségeket.

Nem változik sokat a kép az adatbázis-alapú üzleti feladatokat reprezentálni hivatott SAP 2-tier Sales & Distribution, valamint a Java-szerverre alapuló SPECjbb2005 tesztek alatt sem, amelyek online megrendelési és kiszállítási rendszert szimulálnak. A Power7-nek itt sem akad ellenfele, igaz, a riválisok már korábban említett frissítéseivel előnyének nagy része várhatóan elfogy a következő hónapok során, ugyanakkor minden jel szerint meg tudja őrizni vezető szerepét, köszönhetően a rendelkezésre álló masszív rendszersávszélességeknek és a magasabb megengedhető energiabüdzsének.

Négyfoglalatos rendszerekben mért OLTP teljesítmény

\"\"

Forrás: SPEC.org, SAP.com

Magonkénti OLTP teljesítmény

\"\"

Forrás: SPEC.org, SAP.com

Versenykörkép

Igaz ez az összevetés nem teljesen állja meg a helyét, hacsak valaki nem szinte azonnali teljesítéssel akar új rendszert üzemebe helyezni, ugyanis az összes rivális platform megújul még idén. Az Intel már bejelentette a következő generációs Itanium platformot, amely idén tavasztól válik hozzáférhetővé az Itanium-szállítóknál, így a HP, a Grouppe Bull és a Fujitsu is kínál majd ilyen rendszereket Európában. A négymagos, Tukwila kódnéven ismert chip a kétszeres magszámnak és az új rendszerarchitektúrának köszönhetően legalább duplázódó teljesítményt ígér szinte az összes felhasználási területen, de többnyire várhatóan ennél is jobban szerepel majd, a jelenlegi Itaniumokhoz képest három-négyszeres valós kapacitást kínál majd foglalatonként.

Szintén megújul az Oracle kezébe került Sun Niagara család is, a T3, avagy Rainbow Falls megduplázza a magok számát, így immár 16 mag egyenként 8 szálat futtat majd egy chipen. Az AMD csendben készülődik a multi-chip tokos, 12 magos Opteronokkal és új szerverplatformmal. Heteken belül bejelenti az Intel az új skálázódó Xeont, a Nehalem EX-et, amely 6 helyett már 8 maggal rendelkezik és a Tukwilához hasonlóan új, sokkal gyorsabb és skálázódó rendszerarchitektúrát vezet be, így drasztikus előrelépés várható itt is, a teljesítmény 50-100 százalékkal is nőhet.

Látszik ugyanakkor, hogy számításintenzív feladatokban egyik sem lesz képes befogni a Power7-et, ehhez ugyanis a teljesítmény irreális mértékű ugrására volna szükség. A legközelebb kétségtelenül a Nehalem EX kerül majd, és figyelembe véve az Intel Xeon MP platformjának rövidebb, 1-1,5 éves termékciklusát, 2011 második felére már a következő generációs skálázódó Xeonnal is bővíthetjük igény szerint, amely a következő generációs mikroarchitektúrájával és a 32 nanométeres csíkszélességnek köszönhetően már valószínűleg ledolgozza a Power7-tel szembeni maradék hátrányát is.

A következő hónapok során a legnagyobb előrelépést összességében kétségtelenül az Itanium és a Xeon képviselik majd az új platformoknak köszönhetően, de utóbbi jelentős mikroarchitekturális fejlődésen is keresztül megy, így ezekkel egy néhány hónapon belül érdemes lesz újabb összevetést készíteni a magonkénti teljesítmény szempontjából is. Várhatóan a nyolcmagos Nehalem EX szorongatja majd meg leginkább, amely a teljesítménysűrűség és magonkénti sebesség hasonlóan kiegyensúlyozott kombinációját adja, miközben sokak számára megfelelő RAS-szintet biztosít. Az Opteron magonként teljesítménye akár még csökkenhet is a visszaeső órajelek és az egyre magra jutó rendszersávszélességek csökkenése miatt.

A Nehalem-EX legnagyobb előnye természetesen agresszív árazása, valamint az alacsonyabb üzemeltetési költsége lehet, az olcsóbb támogatási konstrukciók, valamint a windowsos és linuxos rendszergazdák is szélesebb körben elérhetőek. Az Itaniumnak szintén szüksége lesz a magas magonkénti teljesítményre és az agresszív foglalatonkénti árazásra, hogy kedvező színben tűnjön fel, így a beszállítók és operációs rendszerek szélesebb választékával vonzó alternatíva lehet a piac középső szegmensében, például a KKV-k kritikus adatbázisainak és üzleti folyamatainak kiszolgálásában. Az Itanium és a Xeon malmára hajtja a vizet, hogy tipikusan sokkal olcsóbbak rájuk a szoftverlicencek, így a hardver terén elszenvedett hátrányt ez ellensúlyozhatja.

Az IBM ráadásul a jelek szerint ezt a bődületes teljesítményt drágábban is tervezi adni, mivel kétszeres teljesítményről beszél azonos ár mellett - egy teljes kiépítettségű Power 750 Express így kétszer többe kerülhet, mint egy 550 Express. Az IBM valószínűleg így akarja elkerülni, hogy saját Power/AIX értékesítésének vágjon alá, és erős versenyhelyzetben fog csak engedni ebből - mozgástere kétségtelenül lesz a 750 Express által leginkább megcélzott, listaáron 100-200 ezer dolláros sávban. Az IBM az év folyamán kisebb és nagyobb Power7 rendszereket is bemutat majd, így a belépő- és csúcskategóriát is lefedi, így várhatóan még több benchmark trófeát is begyűjt.

Zárszó

Zárásként le kell szögeznünk még két dolgot. Az egyik, hogy fenti mérések csak egy igen kis mintavételt képviselnek, és egyáltalán nem biztos, hogy reprezentatívak más kódok futtatásakor mutatott teljesítményre. Ezzel együtt is ezek az egyes architektúrák összevetésének iparágilag elfogadott tesztjei, amelyek igyekeznek valós felhasználási szituációkat szimulálni, és az eredmények indikatívnak tekinthetőek. A Power7 minden jel szerint bebiztosította, hogy az IBM teljesítmény terén is vezető szerepet töltsön be a következő 1-1,5 év során.

Másrészt a teljesítmény nem az egyetlen vagy akár csak elsődleges szempont a kritikus célú üzleti és ipari szerverek kiválasztásakor. Sok esetben ennél sokkal fontosabb az architektúra által kínált megbízhatósági, rendelkezésre állási és szervizelhetőségi szempontok (RAS). A Power7 természetesen ezen a területen is kiterjedt képességekkel rendelkezik, ahogyan a mezőnyből az Itanium is, valamint az Intel kiemelt figyelmet fordít a Xeon MP vonal megkülönböztető RAS-jellemzőinek hangsúlyozására, ezeket azonban most nem tárgyaltuk itt, és nem vettük figyelembe.

Végezetül a cikkben nem tárgyaltuk a hardverek költségét. Ennek több oka is lehet, köztük az, hogy nem mindig elérhetőek a benchmarkokban szereplő gépek aktuális árai, vagy hogy a benchmarkokban az egy-egy architektúrát nem ugyanaz a konfiguráció képviselt. A legfontosabb azonban az, hogy ezen a területen a hardver beszerzési költsége legtöbbször csak egy kis töredéke, sokszor csak kevesebb mint 10 százaléka a teljes projektnek, ugyanakkor a szoftverekhez kötődő kiadásokon keresztül szoros kihatással lehet a végösszeg alakulására.

A Power 750 Express dobozok 35 ezer dollárról indulnak, teljes fegyverzetben listaáruk pedig elérheti a 200 ezer dollárt is, ami már igencsak borsos, ugyanakkor a magonként, foglalatonként, vagy gépenként licencelt, teljesítményigényes szoftverek esetében mindez akár bőségesen meg is térülhet - az ördög azonban mindig a részletekben rejlik. Az egyenletek kimenetele sokszor változhat a következő hónapok során, ahogyan sorra jelennek meg az újabb és újabb gépek a különféle architektúrákon.

Nagyon széles az a skála, amin az állásinterjú visszajelzések tartalmi minősége mozog: túl rövid, túl hosszú, semmitmondó, értelmetlen vagy semmi. A friss heti kraftie hírlevélben ezt jártuk körül. Ha tetszett a cikk, iratkozz fel, és minden héten elküldjük emailben a legfrissebbet!

a címlapról