Szerző: Asztalos Olivér

2018. augusztus 23. 12:30:00

Nagyot álmodik Xeon-verő Prodigy processzorával a Tachyum

Egy meglehetősen egyedi és érdekes fejlesztést mutatott be a Hot Chips 2018 rendezvényen Tachyum. Az SSD-vezérlőiről elhíresült SandForce, illetve a közelmúltban a MIPS-et felvásárolt Wave Computing társalapítóinak új cége szerverprocesszor tervezésébe vágta fejszéjét. A központi egységet már szinte mindent bele alapon készítették el, az ígéreteknek pedig még a felét is nehéz komolyan venni.

A készítők ígérete szerint a Prodigy nevű központi egység a CPU, a GPU, illetve a TPU  (Tensor Processing Unit) legkedvezőbb tulajdonságait egyesíti, melynek hála klasszikus szerveres feladatokban, gépi tanulásos környezetben, illetve szuperszámítógépes közegben egyaránt helytállhat a chip. Talán még ennél is meredekebb ígéret, hogy a várhatóan 2020 környékére datált processzor magjai számítási teljesítményben felülmúlják a jelenlegi Intel Xeonokét, miközben az egységekből nem kevesebb mint 64 darabot ültetne a lapkákba a Tachyum.

prod1


Tovább is van, mondjam még?

A szépen csillogó ígéreteknek még nincs vége, a tervezők szerint ugyanis a Prodigy mag nem csak nagyon gyors, de rendkívül apró is, kisebb, mint az ARM megoldásai. A RISC-szerű fejlesztés ugyanis saját, in-order(!) architektúrát alkalmaz (akárcsak a nagyot bukott Itanium), a soron kívül végrehajtást (Out-of-Order) az alkalmazások kódjában kell biztosítani, amellyel rengeteg tranzisztort és disszipációt lehet megtakarítani. A Tachyum egy megfelelően megírt kóddal 20 százalékra csökkenthető a végrehajtást lassító pipeline stall jelensége, miközben a hatékonyabb OoO architektúrák esetében 15, az Itaniumnál pedig 50% az arány. A hangsúly itt a megfelelő kódon van, így ugyanis a fejlesztő (illetve a fordító) vállát nyomja majd a végrehajtás optimalizálás kőkemény munkája, amely nem jelent automatikusan jó végeredményt.

A mikroarchitektúra 32 darab 64 bites integer, 32 darab 256/512 bites vektoros regisztert, illetve 7 darab vektormaszk regisztert vonultat fel. Természetesen az utasításszintű párhuzamosság (ILP) is támogatott, a rendszer 4, 8, 12, 16 bájtos utasításokat képes összefogni a hatékonyabb végrehajtás érdekében. A Prodigy szerint mindennek hála a végrehajtás lényegesen hatékonyabb lehet a példaként felhozott, immár tetszhalott Itaniuménál. Minden egyes mag saját, 512 kilobájtos L2 gyorsítótárral rendelkezik majd, az ezek közötti adatforgalmat pedig egy, állítólag az L2-höz hasonló késleltetésű, 32 megabájtos L3 segíti majd.

prod2

Hét kedvenc előadónk az idei HWSW mobile!-ról (x) 90 fős előadó lesz a konferencián, segítve az eligazodást, kiemeltük neked a hét kedvencünket.

A műveleteket tekintve, a Prodigy félpontos lebegőpontos (FP16), illetve a jellemzően gépi tanulásnál alkalmazott INT8-at támogatja, magonkénti számítási teljesítmény pedig az ígéret szerint elérheti a 2 TFLOPS-ot. A kincstári optimizmusból alaposan beraktározó készítők szerint egyetlen processzor az Nvidia Volta gyorsítóját is felülmúlja majd számítási teljesítményben, amely egyelőre a nehezen hihető kategóriát gyarapítja, arról nem is beszélve, hogy ehhez alaphangon is még legalább nagyjából 2 évet kell várni, ameddig a konkurencia sem ül karba tett kézzel.

prod4

A tervezők egyébként nem csak a magok, de körítés specifikációit is a maximimura tekerték. Ez 8 darab DDR4 vagy DDR5 memóriacsatorna, 72 darab PCI Express 5.0-s sávot, opcionálisan két HBM3(!) chipet (gyorsítótárnak?), valamint 4 GHz-es órajelet és mindössze 180 wattos TDP jelent, amely gyakorlatilag a csúcstechnológiát jelentené. A listáról a gyártástechnológiát sem érdemes lehagyni, a cég ugyanis a TSMC 7 nanométeres FinFET eljárását venni igénybe az első hallásra viszonylag kis területű, 290 mm2-es lapka legyártásához, a tape-out jövőre lehet esedékes.

prod3

A Tachyum képviselője elmondta, hogy a mikroarchitektúra rugalmasságából adódóan fejlesztésükkel jelentősen növelhető a hatékonyság, hisz az adatközpont alacsony terheltsége esetében a processzorok szabad erőforrásait például gépi tanulásos műveletekre lehet fordítani. A cég szerint az Amazon EC átlagos terheltsége jellemezően 30, a Facebook-é pedig 40 százalék körül mozog. A szoftveres támogatáshoz kapcsolódóan kiderült, hogy a processzort támogató Linux és FreeBSD jövőre lát napvilágot. Emellett x86-os emulációt is ígérnek a készítők, amire nagyjából 40 százalékos többletterhelés mellett lesz képes a processzor.

A Tachyum tehát jóformán csak a csillagokat nem ígérte le az égről a Prodigyval, kíváncsian várjuk, hogy a hangzatos diákból végül mennyi jut el a végleges termékbe.

a címlapról

Hirdetés

Hét kedvenc előadónk az idei HWSW mobile!-ról

2019. november 16. 02:32

Idén 90 fős előadói gárdával készülünk a HWSW mobile! digitális termékfejlesztési konferenciára, de hogy segítsünk az eligazodásban, kiemeltük neked a hét kedvencünket.