Szerző: Bizó Dániel

2009. augusztus 26. 14:22

Büntetni készül az IBM Power7

A Power7 szakít elődje, az extrém órajelekre optimalizált Power6 koncepciójával, és a magas párhuzamosság felé fordul, miközben igyekszik nem feláldozni a magonkénti teljesítményt sem.

Az elmúlt napokban lezajlott éves Hot Chips konferencia szokás szerint sok érdekességet rejtegetett, hiszen a processzoripar színe-java képviseltette magát. Az újdonságok közül talán az IBM Power7 tart számot a legnagyobb érdeklődésre, ez ugyanis az első alkalom, hogy az IBM a nyilvánosság előtt beszél a hamarosan érkező csúcskategóriás processzoráról.

Bár a tervek szerint jövő év első felében megjelenő Power7-alapú rendszerek már régóta futtatnak AIX és Linux operációs rendszereket a laborokban, az új Power System szerverekkel kapcsolatos kommunikáció eddig még nem indult meg, Magyarországon még a kiemelt ügyfelek sem igazán hallhattak róla. Pedig az új chip ismét radikális változásokat hoz magával, hasonlóan a Power6-hoz, ugyanakkor egy másik irányban. A bináris visszafelé kompatibilitás természetesen alapvető követelmény, és a meglévő szoftverek futási teljesítményét sem érinti kritikusan a chip, mindeközben azonban alapvető mikroarchitekturális változások történnek.

Előzmények: Power6

A 65 nanométeres SOI eljáráson 5 gigahertzes órajelet is elérő kétmagos Power6 egyértelműen az elmúlt évek legagresszívabb, leginkább ambiciózus processzor designja. A tervezők tetőtől talpig megújították az architektúrát, így nem csak gyökeresen átdolgozták a processzormagok felépítését, de új infrastruktúrát is kidolgoztak a chipek összekötéséhez, extrém sávszélességekkel. Csodák természetesen nincsenek, a becslések szerint 150-200 wattot fogyasztó Power6 a mérnökök minden erőfeszítése, a széles magok és párhuzamos kétszálú végrehajtás (SMT) ellenére sem tudta magas órajeleit hatékonyan alkalmazásszintű teljesítménnyé konvertálni, ami elsősorban a tranzakcionális üzleti felhasználásra igaz.

Az iparági sztenderdnek tartott TCP-C tranzakciókezelési tesztben 50 százalékkal múlja felül az 5 gigahertzes Power6 a 2,3 gigahertzes Power5 rendszert, miközben az IBM számos trükköt bevetett a Power6 eredményeinek további tuningolása érdekében, például nagyobb diszktömböt és újabb DB2-verziót használt, így végeredményben a teszt ár-teljesítmény arányában alig javult. Valódi felhasználási helyzetekben azonban a UNIX-szerverek közt a Power6 rendszereknek megvan az az előnye, hogy kimagasló magonkénti teljesítmény révén kevesebb licencet kell hozzájuk vásárolni a magonként licencelt szoftverekből, ami hatalmas megtakarításokat tesz lehetővé, elsősorban a Sun UltraSPARC- és SPARC64-alapú gépekkel szemben, de kétségtelenül jól jön az Itaniumot használó HP Integrity rendszerekkel szemben is.

A magonkénti teljesítmény maximalizálása egyúttal technikailag is megkönnyíti a szoftverfejlesztők és az alkalmazásüzemeltetők dolgát, hiszen kevesebb szállal, alacsonyabb párhuzamosítás mellet érik el a kívánt teljesítményt. Hogy két sarokpontot vegyünk, az adatbázisalapú tranzakcionális üzleti alkalmazások alatt a Power6 nagyjából az UltraSPARC T2-vel azonos foglalatonkénti teljesítményt kínál egy négyutas rendszerben - vagyis ugyanazokat a feladatokat a Power 8 maggal és 16 szállal, míg az UltraSPARC 32 maggal és 256 szállal végzi.

Perspektíva nélkül

Ezeket az előnyeit figyelembe véve különösen érdekes, hogy az IBM miért nem vitte tovább a Power6 örökségét, és az egész iparágat eluraló trendeknek behódolva miért fordult a masszívan párhuzamos felépítésű megközelítés felé. Az immár 45 nanométeres csíkszélességű SOI eljáráson implementált Power7 ugyanis 8 magot fog integrálni, és magonként 4 utasításszálat futtat párhuzamosan, ami chipenként összesen 32 fonalat jelent.

Ez már közel egy éve ismert volt, a mikroarchitekturális részletek azonban nem. A Hot Chips konferencia anyagai alapján a Power7 magjai gyökeresen eltérnek a Power6 magoktól, és az erőfeszítések eredményeként a várhatóan jóval alacsonyabb órajelek ellenére is hozzák ugyanazt a teljesítményt, sőt az IBM állítása szerint többet is nyújtanak. Az IBM valószínűleg úgy találta, hogy  Power6 mikroarchitektúrája nem maradt volna eléggé versenyképes a későbbi generációkban, ugyanis valószínűleg nem lehetett volna a magonként leadott teljesítményt számottevően növelni az órajel emelésével - sőt a magok duplázása mellett egyáltalán nem.

A 45 nanométeres gyártástechnológia az órajel mintegy 30 százalékos emelését tette volna lehetővé egy Power6-derivatíva számára, ami a tapasztalatok alapján mintegy 10-20 százalékos teljesítménynövekedést eredményezett volna. A magok számának duplázásakor valószínűleg még csökkent is volna enyhén az órajel, ezzel a magonként leadott teljesítmény is, ami szintén nem elfogadható.

\"\"Valami teljesen más: Power7

A korábban a 2004-es Power5-ön is dolgozó mérnökök láthatóan teljesen új magokat terveztek. A Power7 magjai szélesebbek lettek, míg a Power6 órajelenként 5, addig a Power7 6 utasítás feldolgozásának elindítására képes, melyeket 12 végrehajtóegység fogad - kettővel több lebegőpontos egység található a fedélzeten. A megnövelt szélességgel valószínűleg a 4 párhuzamos fonalat kívánták megtámogatni a tervezők, de a legfontosabb változás, hogy visszatér a soron kívüli végrehajtás is, ennek részletei azonban egyelőre nem ismertek. A Power7 magok soványabb, 32 kilobájtos elsőszintű utasítás- és adat gyorsítótárakat kaptak, továbbá mindössze 256 kilobájt L2-őt, ebből azonban már sejthető, hogy megjelenik a chipen az L3.

Méghozzá nem is akármilyen formában, ugyanis az IBM-nek sikerült a korábban külön chipen tárolt L3 eDRAM-ot a processzorra emelni, ami azt jelenti, hogy a mérnökök megoldották az eDRAM és a logikai áramkörök egységes eljárással történő gyártását. A Power7 nem kevesebb mint 32 megabájt L3-at kap a chip közepén, ezzel együtt is azonban mindössze 1,2 milliárd tranzisztorból épül fel és 567 négyzetmilliméteres, mivel az eDRAM sokkal takarékosabban bánik a tranzisztorokkal, mint a 6T-SRAM. Az integrációnak köszönhetően az L3 elérése hatszor gyorsabb mint korábban, így kisebb L2 tárak is elegendőek. A Power7 két darab DDR3 memóriavezérlővel rendelkezik, melyek az IBM szerint 100 GB/s fenntartható effektív sávszélességet biztosítanak chipenként.

A Power7 a Power6-hoz hasonlóan 32 foglalatig skálázódhat (256 mag, 1024 szál), vagyis hatalmas osztott memóriás konfigurációk építhetőek belőle. Egy Power7 másik három processzorhoz és a többi \"négyes\" processzorcsomóhoz összesen 360 GB/s sávszélességgel csatlakozik, és 20 ezer koherenciaműveletet képes kezelni egyidejűleg a maximális skálázódás érdekében. Az IBM ígérete szerint a Power System 570 és 595 rendszereket a helyszínen lehet majd frissíteni a processzor bookok cseréjével, így elvileg percek alatt lehet felfejleszteni egy szervert.

A Hot Chipsen elhangzottak alapján a Power7 magonként tipikusan mintegy 20 százalékkal nagyobb teljesítményt kínál a Power6-hoz képest fixpontos műveletek alatt, más forrásokból pedig sejteni lehet, hogy a lebegőpontos csúcsteljesítménye mintegy 60 százalékkal lesz magasabb, köszönhetően a több végrehajtóegységnek. Mindez azt jelenti, hogy a generációváltáskor elvárt minimumot magasan túlugorni látszik a Power7, foglalatonként ugyanis akár több mint négyszeres teljesítményre is képes lehet üzleti alkalmazások alatt, mérnöki-tudományos kódok alatt pedig akár  hatszor gyorsabb lehet elődjénél. Az eddigi ismeretek alapján a chip órajele 3-4 GHz közé várható, ami továbbra is magasnak számít.

A Power7 természetesen számos elektronikai optimalizációt alkalmaz az energiahatékonyság javítása érdekében, többek közt úgynevezett áramkapuzást, mellyel nem csak az órajel, de a tápellátást is lekapcsolja a nem használt blokkok irányában, ezzel gyakorlatilag megszüntetve a szivárgási áram jelenségét, mely a modern nagyteljesítményű áramkörök fogyasztásának jelentős részét adja - egyes kalkulációk szerint a Power6 esetében például a 40 százalékot is elérheti a szivárgás részesedése a  fogyasztásból. A Power7 képes egymástól függetlenül alvó állapotba küldeni a ki nem használt magokat, valamint egyes magok órajelének 10 százalékos megemelésére is képes.

\"\"

A Power7 RAS tekintetében is előrelépett, immár egy teljes memóriamodul meghibásodását is tolerálni képes adatvesztés vagy leállás nélkül, amit a 64 bájtos ECC-vel megtámogatott chipkill technika tesz lehetővé. Akinek az nem elég, annak rendelkezésre áll a memóriatükrözés is a legkritikusabb alkalmazások számára. A még robusztusabb felépítés érdekében az IBM elosztott helyreállítási mechanizmust valósított meg minden magban, melyek az adat vagy végrehajtási hibákból történő leállástól igyekeznek megvédeni a chipet.

Zárszó

Összefoglalva látható, hogy az IBM ismét magasra teszi a lécet, és a jövő év első felére várható Power7 vélhetően újra feladja a leckét a rivális RISC/EPIC-szállítóknak, hiszen továbbra is erős magonkénti, valamint ugrásszerűen megnövekvő foglalatonkénti teljesítményt kínál, vagyis ugyanazt a teljesítményszintet sokkal kisebb, így olcsóbb gépekkel is képes elérni. Az új chip várhatóan felveszi a kesztyűt az Intel és az AMD szintén jövőre várható felső kategóriás szerverprocesszoraival is, és nem csak üzleti alkalmazások alatt, hanem szuperszámítógépes területen is - a Power7 egyik kiemelt fejlesztési fókuszát a szuperszámítógépek képzeték. Az IBM természetesen nem csak a legnagyobb igényű vevőit igyekszik kiszolgálni, így a Power7 elérhető lesz 4 és 6 magos változatokban is, ahogyan a Power7 ereje elegendőnek mutatkozik arra is, hogy akár több korábbi AIX rendszert konszolidáljon egyetlen dobozba.

Nagyon széles az a skála, amin az állásinterjú visszajelzések tartalmi minősége mozog: túl rövid, túl hosszú, semmitmondó, értelmetlen vagy semmi. A friss heti kraftie hírlevélben ezt jártuk körül. Ha tetszett a cikk, iratkozz fel, és minden héten elküldjük emailben a legfrissebbet!

a címlapról