Szerző: Gálffy Csaba

2013. február 21. 16:18

Hetvenkétmagos processzort mutatott a Tilera

Tovább feszíti a nagyon sok magot integráló alkalmazásprocesszorok területét a Tilera, ezúttal a 36 magos processzor után 72 magos monstrummal állt elő a vállalat. Az egyszerű magokat számuk mellett a jó interconnect és az erős I/O teszi igazán hatékonnyá.

Bemutatta legújabb, 72 magos alkalmazásprocesszorát a Tilera. A 40 nanométeren készülő lapka első mintái március folyamán készülnek el, a sorozatgyártás beindulására a következő hónapokban lehet számítani.

Miért 72?

"Ennyi fért" - mondja a kérdésre a Tilera, pontosabban ez használja ki optimálisan a rendelkezésre álló helyet. A chipgyártó eredetileg a 16 és 32 magos modellek után 64 és 100 magos lapkát tervezett, ez utóbbi kettő helyett most került piacra a 72 magos változat. A vállalat szerint a számítástechnikai szempontból kerekebb számok, mint a 64 nem használták ki volna jól a rendelkezésre álló szilíciumlapterületet, ezért került végül 72 mag a lapkára. Hasonló logika mentén használ egyébként az Intel is fura magszámokat a Xeon Phi esetében, arra 62 mag került.

A 72 magos változat egyébként minden tekintetben a 36 magos modell megduplázását hozza, kétszeresére, 24-re nőtt a PCI Express csatornák száma, 2-ről 4-re nőtt a fedélzeti memóriavezérlő csatornáinak száma, és 16-ról 32 gigabitre (4 x 8) a beépített Ethernet-csatlakozó sebessége. Ennek megfelelően közel megduplázódott a lapka áramfelvétele is, amely így már eléri a 60 wattot is - ami az 1,2 GHz-es órajel mellett nem is számít túl soknak.

A Tilera egyébként meglepő módon nem a masszívan párhuzamosítható számítási feladatokat tartja az új lapka legfontosabb alkalmazási területének, e felhasználás szerint minden mag ugyanazt a feladatot futtatja. A cég szerint érdemes a különböző magoknak (vagy magcsoportnak) egymást követő feladatokat adni, így egy-egy mag csak a kód egy részletét hajtja végre, majd az eredményt továbbadja a következő lépcsőt végrehajtó magnak. Ezzel a gyártó szerint elérhető, hogy az egyes magok memóriaéhsége minimálisra csökkenjen, a kódrészlet pedig lokálisan, a gyorsítótárban maradjon, így gyorsítva a végrehajtást. A Tilera megoldásában ezért egyes feladatok magokhoz köthetőek, amivel optimalizálni lehet a lapkaszintű sebességet.

Égbe révedő informatikusok: az Időkép-sztori

Mi fán terem az előrejelzés, hogy milyen infrastruktúra dolgozik az Időkép alatt, mi várható a deep learning modellek térnyerésével?

Égbe révedő informatikusok: az Időkép-sztori Mi fán terem az előrejelzés, hogy milyen infrastruktúra dolgozik az Időkép alatt, mi várható a deep learning modellek térnyerésével?

Az egyes részfeladatok lokalizációja a lapka geometriáját tekintve is fontos - a NIC++ (fejlett képességekkel rendelkező hálózati kártya) funkció esetében például 16 mag láthatja el az alapszintű hálózati feladatokat, míg a maradék 56 a felhasználói alkalmazást futtatja. Ebben az esetben az áteresztő képesség növelése érdekében érdemes a NIC-feladattal bíró magokat a lapka IO-csatolója mellett lekötni, ezzel optimalizálni lehet a magokat összekötő adatkapcsolatok adatáramlását: az egyszerű feladatok mindössze néhány ugrással a végrehajtó maghoz kerülnek, és ugyanilyen rövid úton hagyhatják el a lapkát, a "mélyebb" magokhoz pedig csak a valóban oda tartozó, fontosabb adatok jutnak el.

De mire jó ez?

A Tilera szerint 16 mag felhasználásával 1,7 milliomod másodperc alatt képes feldolgozni egy UDP-csomagot, ami például nagyfrekvenciás tőzsdei kereskedés esetében fontos előny.  A szám még megdöbbentőbb, ha hozzávesszük, hogy ezt 40/40 gigabites sebesség és 64 bájtos csomagok esetén éri el. A csomagok méretét 1500 bájtra növelve az átviteli sebesség 110 gigabitre nő és szaturálni tudja a PCI Express csatolót. És a lapka háromnegyede még szabadon felhasználható.

(Képek: Semiaccurate)

A gyártó sok másik példával is tudja igazolni a lapka létjogosultságát, IP-átirányítás (forwarding) forgalomalakítással (traffic shaping), amelyet 60 maggal 80 gigabites sebesség mellett képes végezni egy ilyen kártya, 40 gigabites veszteségmentes csomagelfogás (packet capture), 10 maggal 40 gigabites SSL 3.0 feldolgozás, 30 maggal másodpercenként 40 ezer RSA-kézfogás. Mivel a lapka tetszőlegesen particionálható a különböző feladatok között, így tetszőlegesen oszthatjuk ki a kapacitást a meglévő 72 mag között. E számítási feladatokban közös, hogy jellemzően IO-korlátosak, az egyes magok teljesítménye nem, az azokat összekötő interconnect és a magok száma azonban számít.

Nagyon széles az a skála, amin az állásinterjú visszajelzések tartalmi minősége mozog: túl rövid, túl hosszú, semmitmondó, értelmetlen vagy semmi. A friss heti kraftie hírlevélben ezt jártuk körül. Ha tetszett a cikk, iratkozz fel, és minden héten elküldjük emailben a legfrissebbet!

a címlapról