Szerző: Asztalos Olivér

2016. április 07. 14:38:00

Itt az IBM-Nvidia együttműködés első gyümölcse

Még idén megjelenhet az IBM és az Nvidia új közös szervere, melyben a speciális, integrált NVLinket tartalmazó POWER8 CPU-k mellé Pascal GPU-k kerülnek. A szuperszámítógépben már kiaknázható lesz az NVLink teljes potenciálja, amihez a hamarosan érkező CUDA 8 nyújthatja a szoftveres alapot.

Az Nvidia az IBM-mel és a Wistronnal közösen készít új szervereket - jelentette be a vállalat a jelenleg is zajló GPU Technology Converence-en. Eszerint már készül egy új OpenPOWER szerver, mely teljesen kiaknázza az NVLink képességeit - ebben a gépben ölt majd testet az IBM új POWER-stratégiája és az Nvidia fejlesztései, sokéves fejlesztés és kooperáció eredménye lesz az új termék. Mindeközben a CUDA 8-at is bejelentette az Nvidia, mely a szoftveres alapot nyújtja az új rendszerhez.

Bár a Tesla P100-ak első néhány szállítmányát megtartotta magának az Nvidia, év vége felé már a partnerek is kaphatnak a kártyákból. A termékek valószínűleg a legtöbb OEM palettáján megjelennek majd, de valószínűleg csak azt követően, hogy elkészült az IBM-mel és a Wistronnal közösen tervezett HPC szerver. A rendszer nagy újítása az NVLink teljes körű támogatása lesz, ugyanis az IBM egy egyedi processzorlapkát készít a géphez, mely integráltan tartalmazza a villámgyors CPU-GPU kapcsolathoz szükséges blokkokat.

A PCI Express skálázódási problémájára gyógyírként szolgáló, pont-pont kommunikációt biztosító NVLink első verziójából összesen 160 GB/s-os sávszélesség nyerhető ki, ezzel pedig akár teljesen mellőzhető a PCIe busz. A GPGPU-s szuperszámítógépek esetében a skálázódás a sarkalatos pont, a CPU-k és a GPU-k, illetve GPU-k és GPU-k közötti kommunikáció, a nagy sávszélesség és az alacsony késleltetés magasabbra tolja a lécet.

A kiszolgáló pontos részletei egyelőre nem ismertek, az egyedi, dedikáltan ehhez fejlesztett IBM POWER8 processzor jelenléte viszont már biztos, amiből valószínűleg két darab lesz egy gépben. A 12 magos, illetve 96 szálas CPU-k 3-3,5 GHz-es órajellel, összesen 6 MB L2, és 96 MB L3 gyorsítótárral rendelkeznek, a DDR3 vagy DDR4 modulokból kirakható rendszermemória mérete pedig legfeljebb 1 TB lehet, akár 230 GB/s-os sávszélesség mellett. (A közelmúltban bemutatott Xeon E5-2600 v4 esetében utóbbi érték csupán 76.8 GB/s.)

Egyelőre az sem világos, hogy egy kiszolgáló hány darab Tesla P100-at tartalmaz majd, elképzelhető négy GPU-s vagy akár 8 GPU-s konfiguráció is. Ezzel félpontosságú műveleteknél közel 170, egyszeres pontosság esetében körülbelül 80, duplapontosság mellett pedig 40 TFLOPS feletti számítási tempót produkálna a rendszer.

A szerver megjelenését 2016 utolsó negyedévére datálják az érintettek. Így a POWER8 és a Pascal kettősével elérhető lesz az Nvidia szerint megálmodott teljes architektúra, mely az NVLinkkel együtt a egységes (egységesen címezhető) virtuális memóriát is támogatja, a CPU-k és GPU-k közös címtérben dolgozhatnak. Mindez komoly előrelépés lehet a korábbi IBM megoldáshoz képest, melyben még PCIe csatolós, Kepler-alapú Tesla gyorsítók vannak.

Az IBM-Nvidia-együttműködés Achilles-sarkát az alkalmazások jelentik. A megcélzott HPC szegmens mérnöki-tudományos számítási feladatai jellemzően x86-os processzorokon futnak, és bár a POWER utasításarchitektúra nem ismeretlen, az alkalmazások túlnyomó többségét portolni kell majd az új szerverre. Ebben az IBM és az Nvidia műszaki támogatást ígér a potenciális vásárlóknak - nagy kérdés, hogy ez elegendő lesz-e ahhoz, hogy a szegmensben ez a POWER+Pascal platform lendületet szerezzen.

Némi segítséget jelent azért, hogy a hardveren szabványos Linux fut majd, az architektúra pedig sok ponton egyezik a következő generációs Summit és Sierra szuperszámítógépekkel - azokban POWER9 processzorok és Volta GPU-k dolgoznak majd, a most portolt szoftverek azokon a gépeken is magas hatékonysággal futhatnak majd.

Érkezik a CUDA 8

Machine learning és Scrum alapozó képzések indulnak! (x) A HWSW októberben induló gyakorlatorientált, 10 alkalmas, 30 órás online képzéseire most early bird kedvezménnyel lehet regisztrálni!

A hardverek mellett a szoftvereknek is jutott terep a GTC-n. Az Nvidia bemutatta az év későbbi részében megjelenő CUDA 8 programozási keretrendszert és az azt kiegészítő API-t, mely a Pascal optimális kihasználásához szükséges.

Így a legújabb CUDA-ban megjelent az egységes (egységesen címezhető) virtuális memória hardveres támogatása, amihez GP100 GPU 49 bites virtuális címzést vezetett be. Ezzel egyszerre fedhető le a modern CPU-k és GPU-k 48 bites címtere, a rendszerben lévő egyes processzorok memóriájának fizikai mérete így már nem lehet limitáló tényező.

A CUDA 8 elhozta az nvGRAPH GPU gyorsított grafikus analitikai könyvtárat, segítségével megtakarítható a mintavételezéshez szükséges idő, és nem szükséges kisebb grafikonokra tördelni az adatokat. Az Nvidia mérése szerint ezzel egy Tesla K40 négyszer gyorsabb 48 darab Xeon CPU processzormagnál.

A fejlesztők munkáját új profilozási képességek segítik, a Visual Profiler immár függőséganalízist nyújt a GPU kernel CPU CUDA API hívások között, melynek segítségével könnyebben elválasztható egymástól a kritikus, illetve a teljesítményt kevésbé befolyásoló kódok végrehajtása. Emellett már OpenACC kód profilozása is megoldott, a szoftver pedig az NVLink kapcsolatok topológiáját is mutatja, az egységesen címezhető virtuális memória laphibái mellett.

Gyorsult az NVCC fordító, bizonyos kódok esetében akár kétszeres is lehet a sebességnövekedés, elsősorban C++ sablonok esetében, mint például a Thrust és az Eigen 3. A CUDA 8 kiadásra jelölt változata júniusban érkezik, a végleges verzió pedig augusztusra várható.

a címlapról