Szerző: Bizó Dániel

2008. november 25. 13:53

Világok harca: felbukkant az első GPU-hibrid szuperszámítógép

Múlt héten frissült a világ legerősebb szuperszámítógépes rendszereit rangsoroló lista, a Top500. A rengeteg új belépő ellenére trónfosztás nem történt, és a petaflopsos lélektani küszöböt is már korábban áttörték, ugyanakkor egy újabb mérföldkövet ért el az ipar: felkerült a listára az első olyan hibrid konfiguráció, mely grafikus chipeket (GPU, graphical processing unit) is használ a számítások elvégzésére. Ezzel végleg eldőlt, hogy a GPU-k kitörtek a játékiparból, és általános célú alkalmazhatóságuk, ami az Intel számára hatalmas fenyegetést jelent, többé nem csak PowerPoint prezentációkon létezik, hanem nagyon is valóságos.

[HWSW] Múlt héten frissült a világ legerősebb szuperszámítógépes rendszereit rangsoroló lista, a Top500. A rengeteg új belépő ellenére trónfosztás nem történt, és a petaflopsos lélektani küszöböt is már korábban áttörték, ugyanakkor egy újabb mérföldkövet ért el az ipar: felkerült a listára az első olyan hibrid konfiguráció, mely grafikus chipeket (GPU, graphical processing unit) is használ a számítások elvégzésére. Ezzel végleg eldőlt, hogy a GPU-k kitörtek a játékiparból, és általános célú alkalmazhatóságuk, ami az Intel számára hatalmas fenyegetést jelent, többé nem csak PowerPoint prezentációkon létezik, hanem nagyon is valóságos.

TSUBAME

A Tokiói Technológiai Intézet (Tokyo Tech) a GeForce GTX260 és GTX280 kártyákon is megtalálható NVIDIA Tesla, azaz nem grafikus célú GT200 chipekkel bővítette fel TSUBAME szuperszámítógépes rendszerét. A TSUBAME így a novemberi Top500 listán a 29. helyre kvalifikálta magát, négy helyet vesztve a júniusi összesítéshez képest. A 170 darab rackelhető Tesla S1070 rendszer egyenként 4, így összesen 680 darab GT200 (Tesla 10P) chipet alkalmaz. Az 1U magas S1070 rendszerek öt szekrényben elférnének, Tokióban viszont úgy döntöttek, hogy a meglévő Sun Fire X4600 rendszerek közé illesztik azokat.

A már egyébként is hibrid architektúrájú, ClearSpeed gyorsítókat is alkalmazó TSUBAME továbbfejlesztési irányában döntő szempont volt, hogy a meglévő rendszer már több mint 12 ezer processzormagot használt, és fogyasztása meghaladta az 1 megawattot. A 170 darab Tesla-rendszer összesített csúcsfogyasztása ezzel szemben kevesebb mint 136 kilowatt, miközben segítségükkel másfélszeresére, 161,8 teraflopsra nőtt a rendszer csúcsteljesítménye.

Az intézet elemzése szerint az általuk futtatott molekuláris biológiai szimulációk számára a következő évek során a grafikus processzorok bizonyulnak a legjobb választásnak a számításintenzív és sávszélesség-intenzív áramlástani modellezések területén.

A 170 darab Tesla-rendszer számítási csúcsteljesítménye 52 teraflops kétszeres pontosságú 64 bites műveletekkel, melyhez másodpercenkénti 69 360 gigabájtos aggregált memória-sávszélesség társul -- ez több mint 2700 darab kétutas HPC (high-performance computing, nagyteljesítményű számítástechnika) Xeon-rendszer (Stoakley platform) sávszélességének felel meg, vagyis nagy mennyiségű adat mozgatásakor hatalmas előnyt élvez az agresszív, széles és magas frekvenciájú memória-alrendszerrel rendelkező Tesla S1070, melynek egyébként létezik deskside munkaállomás változata is, a Tesla Personal Supercomputer.

Valósággá válhat a GPGPU

A grafikus chipek sem jelentik ugyanakkor a Szent Grált, architektúrájuk ugyanis "törékeny", azaz hatékonyságuk rendkívül érzékeny a kód természetére. A végrehajtóegységek minél magasabb kihasználása érdekében az algoritmusokat újra kell gondolni és implementálni az NVIDIA C nyelvet használó CUDA fejlesztői környezetében, ahogyan azt a Tokyo Tech kutatói is tették. Linpack alatt, mely a szuperszámítógépes rendszerek rangsorolásának alapját képezi, a 680 darab GT200 chip nagyjából 9,8 teraflops effektív teljesítménnyel növelte a teljes rendszer potenciálját, ami 19 százalékos hatékonyság -- egy általános célú mikroprocesszornál ez az arány 75 százalék feletti, de elérheti a 95 százalékot is.

A kódra érzékeny, masszívan párhuzamos mikroarchitektúra mellett nem kedvez a 64 bites pontosságnak sem a továbbra is elsősorban a grafikai felhasználást szem előtt tartó GT200 felépítése. A 32 bites pontossághoz képest ugyanis egy nagyságrenddel esik a műveletvégzési sebesség a keskeny adatutak és regiszterek miatt. A lineáris egyenleteket és legkisebb négyzetek problémáját mátrixokon megoldó Linpack alatt a GT200 chipek emiatt nem is eléggé energiahatékonyak, wattonként kevesebb mint 100 megaflops 64 bites teljesítményt adnak le rendszerszinten, így jócskán elmaradnak az x86-os processzoroktól -- egyelőre. A GT200 mirkoarchitektúráját részletesen tárgyalja a Prohardver! magazin cikke.

A TSUBAME mérnökei ugyanakkor a jövőbe tekintenek, ahol az algoritmusok, fejlesztői eszközök és a hardver együttes fejlődésével egyre rugalmasabban és hatékonyabban programozhatóvá válnak a grafikus célú processzorok. Erről szól a kommersz 3D-gyorsítók immár több mint egy évtizedes története -- 1996-ban, a 3dfx Voodoo megjelenésekor valószínűleg senki nem gondolta még, hogy a "játékszerek" ilyen gyorsan ilyen messze jutnak. Az AMD a héten jelentette be megállapodását a Portland Grouppal Fortran és C compiler technológia kidolgozásában a cég saját grafikus gyökerű HPC-chipjei számára, melyeket FireStreamnek nevez.

A Tokyo Tech a grafikus chipek programozhatóságának gyors fejlődésére és alkalmazásuk terjedésére számít a TSUBAME 2.0 építésénél, mely Japán első petaflopsos konfigurációja kíván lenni. Ebben már meghatározó szerepet töltenek majd be a grafikus chipek, azaz valósággá válhat a szakmában csak GPGPU (general purpose grapchical processing unit, általános célú grafikus feldolgozó egység) néven ismert koncepció. A következő évtizedre megindulhat az eredetileg grafikus célú feladatokra termett processzorok szélesebb körű alkalmazása a számításintenzív, jól párhuzamosítható feladatokban, melyek többnyire a műszaki-tudományos és pénzügyi modellezések, vizualizáció és videofeldolgozás területeiről kerülnek valószínűleg ki.

The Power of Cell

Ahogyan a TSUBAME is bizonyítja, az Intel számára nagyon is valós kockázatot jelent, hogy az egyre programozhatóbbá váló grafikus chipek behatolnak a felségterületére, és egyre több számításintenzív feladatot vesznek át a hagyományos értelemben vett processzoroktól. De nem csak a grafikus chipek jelentenek veszélyt. Az előbb említett PowerXCell 8i például a júniusi lista óta, azaz fél év alatt például négy új helyet szerzett, ami bár önmagában nem jelentős, a tendencia viszont figyelmeztető az Intel számára.

A Cell-architektúra előretörése nem véletlen, az egy PowerPC magot és nyolc vektorprocesszort integráló lapkákra épülő konfigurációk magasan a legenergiahatékonyabbak a mezőnyben, a legjobb Xeonnál is kétszer nagyobb teljesítményt adnak le wattonként, akár több mint 500 megaflopsot -- gyártástechnológiai hátrányuk ellenére is. A Cellek ugyanis 65 nanométeres eljáráson készülnek, míg a legújabb Xeonoknál már 45 nanométeres félvezetőtechnológiát alkalmaz az Intel. A PowerXCell 8i ráadásul nemcsak a nagyok játékszere, a globális viszonylatban kisebb, 100 blade-ből felépülő konfigurációtól kezdve a monstrumokig egyaránt bizonyít a kétutas IBM BladeCenter QS22 szerverekben -- a belépési küszöb alacsony, a hardver széles tartományban skálázható.

[+] Ötször nagyobb teljesítményre képes a Cell processzor új változata

A HPC-piac önmagában sem lebecsülendő, az IDC becslése alapján az évi 50 milliárd dollár feletti szerverforgalom mintegy ötödét teszi ki értékben, nem beszélve a munkaállomások 7-8 milliárdos piacáról, az igazi fenyegetést az Intel számára ugyanakkor a mainstream PC-kbe kerülő rivális chipek jelentik, melyek az egyre vizuálisabbá váló számítástechnikából hasíthatnak ki növekvő szeletet. A Toshiba egyik Qosmio notebookmodelljét egy másik Cell-derivatívával szállítja, aminek célja elsősorban a videotömörítés gyorsítása. Bár a feladatok x86-os chipekről történő migrációja még sokkal inkább a jövő, mint a jelen zenéje, a kommunikációs háború már megindult.

Világok harca

Az elmúlt hónapok során már különösen agresszív, támadó kommunikációval operáló NVIDIA szerint a vizuális számításoknak a grafikus chipen a helyük, és a cég megoldásai összehasonlíthatatlanul jobbak az Intelénél. Úgy tűnik, az NVIDIA nemcsak vaktában lövöldözik, hanem gólokat is sikerül lőnie: az Adobe Creative Suite 4 generáció például már használ hardveres grafikus gyorsítást, amivel látványosan felgyorsul a képek manipulációja, folyékonyabbá téve a munkavégzést. Az NIVIDA gyakorlatilag havonta hírt ad arról is, hogy a Folding@Home proteinkutatásban milyen kevés NVIDIA chip milyen sok teraflops teljesítménnyel bír.

Való igaz, a többnyire pocsék kóddal megírt PC-szoftverek által gúzsba kötött, általános célú x86-chipek számításintenzív területen azonban nem képesek felvenni a versenyt a speciálisan a párhuzamos végrehajtásra tervezett architektúrákkal, ugyanis nagy teljesítménnyel kell futtatniuk az összes, többségében rosszul vagy egyáltalán nem párhuzamosított, optimalizálatlan kódot, így az x86-os mérnököknek a gyenge kódokat kiszolgáló, futásidőben optimalizáló logikára és magas órajelre kell fordítaniuk a rendelkezésre álló tranzisztor- és energiabüdzsét. Az Intelnek így szüksége volt egy új fejlesztésre, hacsak nem akarta megkockáztatni, hogy a vevők pénztárcája riválisai felé nyíljon, nyilvánvalóan a cég kárára.

Az Intelnél gőzerővel folynak egy olyan chip fejlesztései, mely elsősorban NVIDIA és AMD nagyteljesítményű grafikus processzoraival rivalizálna grafikus és HPC-területeken egyaránt. A Larrabee kódnévű projekt célja egy olyan masszívan párhuzamos architektúrájú lapka létrehozása, mely megtartva az x86-os kompatibilitást rugalmasan vezérelhető és programozható marad, miközben megfelelően többszálúsított és vektorizált kód alatt az általános célú processzorok számára elérhetetlen teljesítményt nyújt.

A Larrabee 256 bites vektoregységekkel és a grafikus felhasználás miatt textúrázóval kiegészített x86-os magokból integrál több tucatot, melyeket körbusz köt össze. A magok egyenként négy szálat kezelnek, melyből egy a másik hármat szolgálja ki. A DirectX és OpenGL kód futtatására is képes chip, mely egyúttal az Intel első dedikált grafikus processzora is lesz, valamikor 2009-2010 magasságában jelenik meg.

[+] Larrabee: az Intel frontális támadása a Radeon és GeForce ellen

Az Intel stratégiai érdeke, hogy a 3D-grafikai megjelenítést a raszterizációra épülő jelenlegi rendertechnikák felől a globális bevilágítás (global illumination) felé tolja el az ipart, kimozdítva ezzel az NVIDA-t és az AMD-t a hazai pályáról. Az Intel a játékfejlesztőket igyekszik elsősorban megnyerni, akik egyre jobban küzdenek a valóság közelítésére mára trükkhegyeket alkalmazó raszterizáció korlátaival. A Budapesten megrendezett tavaszi Game Developers Forumon maga Cevat Yerli, a Crysist produkáló Crytek alapítója vélekedett úgy, hogy a raszterizáció elérte lehetősége határait.

A játékiparban konszenzus látszik kialakulni a tekintetben, hogy a hardverek szélsebes fejlődésével a következő évtized elejére elérhetővé válhat a valósidejű ray-tracing is, ami egy újabb áttörést hozna el az alkalmazások, de elsősorban a játékok grafikai minőségében. Az Intel ennek demonstrálására egy négyutas Xeon szerverben, 16 processzormaggal játszható sebességgel renderelte 720p felbontásban az Enemy Territory: Quake Wars ray-tracingre átírt változatát. Valószínűleg erre a Larrabee egy bővítőkártya formájában lesz képes.

A végső összecsapás?

Ezzel az Intel bár kiegyenlítetté tenné a küzdelmet az NVIDA-val, és az AMD ex-ATI osztagával szemben, nyilvánvalónak tűnik, hogy középtávon minden kommunikációs aknamunkájuk ellenére nem tér vissza a teljesen szoftveres renderelés, legalábbis nem olyan értelemben, hogy az általános célú processzorok veszik vissza a grafikailag intenzív feladatokat. Az NVIDIA és az AMD is világosan látja ugyanis a grafikai fejlődés irányát, nem véletlen, hogy mindkettő tartott már látványos ray-tracing demonstrációt jelenlegi grafikus architektúráján, amivel jelezték, azok már most alkalmasak a feladatra, és a jövőben egyre inkább azokká válnak az új fejlesztések révén.

[+] Valósidejű ray-tracing renderelés az NVIDIA vizualizációs rendszerén

Miután a számítástechnikai ipar elmúlt két évtizedét a gazdaságossági prés alatti konszolidáció határozta, aminek hatására olyan vállalatok chipfejlesztései hullottak ki vagy kerültek a partvonalra, mint a Motorola, IBM, DEC/Compaq, 3dfx, Matrox és VIA, a talpon maradt maradék három, az IBM ismételt belépésével talán négy birodalom egy újabb összecsapásra készül annak eldöntése érdekében, hogyan nézzen ki a számítástechnika a következő évtizedben, és kik kontrollálják majd a piacot.

a címlapról