Szerző: Bodnár Ádám

2011. november 14. 13:40:00

Megjöttek a Bulldozer-alapú Opteronok

Hosszas késlekedés és többszöri csúszás után hivatalosan is bemutatkoztak a Bulldozer-alapú Opteron 4200-as és 6200-as sorozatú processzorok, amelyeket korábban Valencia és Interlagos kódnéven emlegettünk. Heteken belül boltokba kerülhetnek az AMD vadonatúj processzoraira épülő szerverek a nagy gyártóknál.

Néhány héttel a desktop változat után hivatalosan elrajtoltak az AMD Bulldozer-alapú Opteronjai is. A korábban Valencia néven ismert nyolcmagos Opteron 4200-as sorozat, illetve az Interlagos kódnevű Opteron 6200-as sorozat mellett egy új termékvonallal bővül jövőre a paletta, az Opteron 3000-es családba ("Zurich") olyan 4-8 magos, AM3 foglalatba illeszkedő lapkák érkeznek, amelyeket kimondottan olcsó, egyprocesszoros energiahatékony szerverekbe szán az AMD.

Ahogy azt korábban már többször leírtuk, az AMD a gyártástechnológiai hátrányának ledolgozása érdekében úgy tervezte meg a Bulldozer magokat, hogy azok takarékosan bánjanak a szilíciumterülettel, adott helyre a legtöbb magot tudja integrálni és így a legmagasabb szintű párhuzamosságot tudja kínálni a design. A chiptervező mérnökök a processzormagokat kettes csoportokba szervezték, ezek a modulok megosztoznak a "frontenden" (utasításbetöltés és dekódolás, elágazáskezelés), valamint egyetlen közös lebegőpontos egységet használnak két 128 bites FMAC egységgel, illetve a 2 megabájtos L2 cache is közös.

Az osztott erőforrások a szoftverek felé teljesen transzparensek -  ez ugyanakkor azt is okozhatja, hogy a processzorok nem minden esetben tudják a bennük rejlő maximumot nyújtani, a Windows Server 2008 R2 a szálak kezelésénél például nem veszi figyelembe hogy melyik két magnak vannak közös erőforrásai. Az AMD korábbi számításai szerint az operációs rendszer optimalizációjával kinyerhető teljesítménytöbblet 5-10 százalék körül lehet.

Paraméterek

A kétfoglalatos szerverekbe szánt Opteron 4200-as chipek ("Valencia") a szilícium szintjén gyakorlatilag megegyeznek a desktopokra szánt Zambezikkel, azonban az asztali gépekben használt AM3+ helyett C32 foglalatba illeszkednek. Minden Opteron 4200-as sorozatú chip kétcsatornás DDR3 memóriavezérlővel rendelkezik és 1600 MHz-es effektív órajelű memóriamodulokat támogat. A lapkák nyolc magot tartalmaznak, amelyekből bizonyos modellek esetében kettőt letilt az AMD, így a kínálat hatmagos modelleket is tartalmaz.

Az Opteron 4200-as chipek névleges órajele kiviteltől függően 1,6 és 3,3 GHz között változik, de ez turbóval 3,7 GHz is lehet. A chipek TDP-je 35-95 watt, ami megegyezik a korábbi generációs Opteronokéval, így nincs szükség a szerverek áttervezésére, egy BIOS-frissítés után a C32 foglalatú gépek máris fogadhatják a Valenciákat.

Két Valencia egybetokozásával áll elő a G34-es foglalatba illeszkedő Interlagos, amelynek csúcsváltozatai 16 processzormagot állítanak csatasorba. A duplázás miatt a memóriacsatornák száma is kétszer annyi mint a Valencia esetében, és az L3 mérete is 16 megabájt 8 helyett és 3 helyett 4 aktív Hyper-Transport linkkel rendelkeznek. A négyfoglalatos szerverekbe szánt Opteron 6200-as család tagjai a nagyobb magszám miatt  alacsonyabb órajelen járnak a 4200-a chipenél, hogy beférjenek a korábbi Opteronoknál meghatározott 85-140 wattos TDP-keretbe. A 16 magos kivitelek esetében 1,6-2,6 GHz között alakulnak a névleges órajelek, de létezik csupán 4 aktív magot tartalmazó 3,3 GHz-es kivitel is.

Az AMD kimondottan a jól párhuzamosítható, masszívan skálázódó szerverfeladatokat célozta meg az új Opteronokkal, a chip felépítése kimondottan a sok fixpontos feladattal járó terheléseknek kedvez mint amilyen a Java kiszolgálás, a webkiszolgálás vagy az adatbázisok, de a magas magszám és a nagy memóriasávszélesség (az Interlagos esetében 4 darab DDR3-1600 vezérlő) a mérnöki-tudományos workloadok alatt is jól teljesít - a Cray következő generációs szuperszámítógépei is Opteronokra épülnek.

Fontos szempont volt a fejlesztésnél az energiahatékonyság, amit a Bulldozer-alapú chipekben a Power Cap funkció is támogat - ez lehetővé teszi az új Opteronokban a fogyasztás és a hőtermelés korlátozását 1 wattos lépésekben. A fogyasztás finomhangolása főként azoknak a felhasználóknak lehet fontos, amelyek kevéssé teljesítményérzékeny, viszont masszívan párhuzamos feladatokat futtatnak hatalmas adatközpontokban, például internetszolgáltatóknál, cloudszolgáltatóknál, ahol egyébként is elterjedtek a nagy teljesítménysűrűségű rendszerek. A TDP Power Cap alkalmazásával megoldható, hogy az egy rackre jutó teljesítmény ne lépjen át az energiaellátás vagy a hűtési kapacitás által szabott küszöböt, de a alulról a lehető leginkább megközelítse azt.

Teljesítmény

Az AMD által a kereskedelmi rajt kapcsán eddig nyilvánosságra hozott teljesítményadatok alapján vegyes kép rajzolódik ki az új processzorok teljesítményéről. A magas magszámnak köszönhetően a mérnöki-tudományos rendszerekbe szánt, 16 magos, 2,6 GHz-es Opteron 6282SE processzor 456 pontos eredménye tiszteletet parancsoló az iparban standardként használt SPEC CPU2006 teszt fixpontos átviteli sebességet vizsgáló részében (SPECint_rate_2006), ez 16 százalékkal magasabb a 3,46 GHz-es hatmagos "Westmere" Xeon X5690 393 pontos eredményénél kétfoglalatos rendszerben. és alig marad el a tízmagos, 2,27 GHz-es Xeon E7-4860 477 pontjától. Lebegőpontos teljesítmény (SPECfp_rate_2006) terén 39 százalék az Opteron 6282SE előnye a hatmagos Xeon X5690-nel szemben, a két tízmagos Xeon E7-4860 processzort tartalmazó Fujitsu konfigurációval szemben már csak 1 százalék. A Xeon E7 "megtáltosodása" nem váratlan, a SPECfp_2006 benchmark közismerten "szereti" a nagy processzorcache-t.

Négyfoglalatos konfigurációban a 2,4 GHz-es tízmagos "Westmere-EX" Xeon E7-4870 processzor fixpontos teljesítményben 14 százalékos előnyre tesz szert a 16 magos Opteron 6282SE-vel szemben, lebegőpontos teljesítményt figyelembe véve pedig szinte azonos a két chip eredménye, a Xeon a hatalmas cache-ének köszönhetően 1 ponttal múlja felül az Opteron 752 pontos eredményét. Érdemes megjegyezni, hogy a lebegőpontos teljesítményt vizsgáló SPECfp_rate_2006 tesztekből csak "peak", azaz kézzel tuningolt eredményekkel szolgált az AMD.

A vállalat számos, kétfoglalatos konfigurációban készült mérnöki-tudományos benchmark eredményét is publikálta, ezek igen nagy szórást mutatnak attól függően, hogy az adott kód a processzor mely paraméterére "érzékeny", de az Opteron fölénye az eddig közzétett számok alapján vitathatatlan. A Linpack tesztben az Opteron 6276 többszörös teljesítményt hoz a hatmagos "Westmere" Xeon X5670-hez képest, de a többi benchmarkban is látványos az Bulldozer előnye - nem csoda, kétfoglalatos konfigurációban az AMD oldalán 32 mag és 16 lebegőpontos egység száll harcba, míg a Xeon esetében 12 magról és ugyanennyi FPU-ról beszélhetünk, és az Interlagos 4 DDR3-1600 vezérlője révén memória-sávszélességben is lelépi a Westmere-t (3xDDR3-1333).

Miért érdemes belevágnod a Scrum képzésünkbe? (x) Október 21-én Scrum alapozó képzést indít a HWSW, íme néhány jó érv a kurzus mellett.

Kereskedelmi szerverfeladatok alatt végzett teljesítménytesztből egyelőre egynek az eredményét hozta nyilvánosságra az AMD: a cég weboldalán található összehasonlítás szerint kétfoglalatos konfigurációban az Opteron 6282SE 1,2 millió BOPS feletti teljesítménye 24 százalékkal múlja felül a hatmagos Xeon X5690-et a sztenderd Java ssebességtesztben (SPECjbb2005), azonban a SPEC oldalán kutakodva több kétfoglalatos Xeon E7 tesztet is találunk, amelyek között 1,4 millió BOPS-os eredmény is van.

Ezt ígérte az AMD

A közzétett teljesítményadatokból az is látszik, hogy az AMD megközelíteni sem tudta saját ígéreteit a Bulldozer teljesítményére nézve. A vállalat még idén is eltökélten állította prezentációkban, hogy a 12 magos Opteron 6100-as generációhoz (Magny Cours) képest az Interlagos fixpontos teljesítménye mintegy 35 százalékkal, lebegőpontos teljesítménye pedig 80 százalékkal lesz magasabb. A közölt adatok ezt nem támasztják alá, a 2,5 GHz-es Opteron 6180SE-hez képest a 2,6 GHz-es 6282SE előnye mindössze 22 százalék SPECint_rate_2006 alatt, lebegőpontos teljesítményben pedig csupán 13 százalék a Bulldozer előnye kétfoglalatos konfigurációban. Négyfoglalatos kiépítés esetén a különbség rendre 25, illetve 14 százalék.

A számok mögé nézve azt is láthatjuk, hogy az új mikroarchitektúra magonkénti teljesítménye  visszalépés a korábbi generációhoz képest - az AMD korábbi ígéretei alapján arra lehetett számítani, hogy a magok szintjén 10-12 százalékos gyorsulás lesz tapasztalható, ehelyett hasonló szintű lassulást hozott a Bulldozer. A hírnek bizonyára nem örülnek azok, akik a processzormagok száma alapján licencelt kereskedelmi szoftvert futtatnak Magny Cours alapú gépükben és a teljesítményt új generációs Opteronok beépítésével szeretnék növelni. A fentebb már tárgyalt 13-25 százalékos gyorsulás jelentős többletköltséggel járhat a számukra, amit a megnövekedett magszámból adódó licencdíjakból adódik. Nem véletlen, hogy az AMD nem az ilyen területekre összpontosítja kereskedelmi erőfeszítéseit és igyekszik inkább olyan felhasználókra célozni, ahol ez nem szempont a döntésnél.

A megcélzott területek: cloud, webhoszting, HPC

A Bulldozer processzorok kapcsán mindenképp érdemes beszélni az árazásról, amellyel talán a legnagyobb meglepetést szolgáltatta az AMD: még a jelenleg hozzáférhető legerősebb, legdrágább Interlagos is 1019 dollárba kerül mindössze, ami nem csak a kategóriatárs Xeonoknál alacsonyabb, hanem az AMD korábbi generációs, 12 magos ("Magny-Cours") Opteronnál is sokkal olcsóbb - miközben a chip magmérete jelentősen nem kisebb (630 mm2 a korábbi 692 mm2 helyett), tehát a gyártása feltehetően nem kerül sokkal kevesebbe, a teljesítménye pedig jóval nagyobb - az Interlagos az AMD által publikált eredmények szerint néhol a Magny-Cours ár-teljesítmény viszonyának kétszeresét hozza.

Az árazás mögött meghúzódó okokról legfeljebb találgatni lehet. Könnyen elképzelhető hogy az AMD az alacsony árakkal próbálja meg Opteronjait újra vonzóvá tenni a szerverpiacon, ahol az elmúlt évek során szinte teljesen elvesztette az évtized közepére kiharcolt 20 százalék körüli részesedését és mára csak az eladások kevesebb mint 5 százalékát tartja a kezében. Hiába a Valencia és az Interlagos visszamenőleges platformszintű kompatibilitása, ha z Opteron-alapú szerverek gyakorlatilag kihaltak a piacról - eltűnt az a felhasználói bázis, aki most frissíthetne.

Másrészt a vállalat az elmúlt hónapok során zárt ajtók mögött már tárgyalta és tesztelte azt az új, még formálódó szerverpiaci stratégiáját, amely az AMD-t a nagyméretű webkiszolgálás, webhoszting és cloudszolgáltatók, illetve szuperszámítógépes felhasználók felé pozicionálná újra. A nyilvánosság felé nem kommunikált elképzelés célja, hogy a vállalat elkerülje a rendkívül forrásigényes "frontális háborút" az Intellel a kereskedelmi feladatokra (pl. OLTP, ERP, CRM) szánt szerverek szegmensében és az Opteronok és Xeonok közvetlen összehasonlítását.

A megcélzott területek közös jellemzője, hogy egyszerre nagy mennyiségű szerver beszerzéséről döntenek, nagy a megcélzott párhuzamosság szintje (nem akkora hátrány az Opteronok lemaradása a mag- vagy szálszintű teljesítményben a Xeonokkal szemben) és a szoftverek zöme sem processzormag- hanem inkább foglalat-, szerver- vagy site-alapon licencelhető vagy éppen saját fejlesztésű. A cloud- és weboszting-szolgáltatók és HPC telepítések esetén a fogyasztás- és teljesítménysűrűség is meghatározó súllyal bír az infrastruktúra gazdaságosságában, a hardver beszerzési költsége pedig jelentős tényező - a relatív alacsony CPU-árazással az AMD nagy volumenű üzleteket generálhat.

A vállalat az egyszerre nem ritkán több ezer szervert megrendelő ügyfelek esetében közvetlen tanácsadással, egyedi szervermegoldásokkal tehet szert előnyre az Intellel szemben. Míg a legnagyobb gyártó számára a gyártás és ellátási lánc végletekig történő optimalizálása elsődleges, addig az AMD akár egyedi processzormodelleket és alaplapokat is hajlandó kínálni, amelyek az ügyfél által kívánt energiahatékonyságot és fizikai sűrűséget kínálják - a cég korábban így nyerte meg magának a Facebookot és a Microsoftot is (Azure). A HWSW ismeretei szerint AMD a már így megszerzett tapasztalatait igyekszik a piacon kiterjeszteni, meglovagolva a cloudokat futtató zöldmezős adatközponti beruházások új hullámát.

Hamarosan kapható

Az új Opteronok szállítása már megkezdődött, az AMD közleménye alapján a nagy szervergyártók, köztük a Dell és a HP a következő hetekben dobják piacra a Bulldozer-alapú rendszereiket, amelyek feltehetően nem fognak jelentősen különbözni az előző generációs gépektől.

a címlapról