Az adatközpontokba is megérkezett az Nvidia "Turing"
A Tesla T4 a gépi tanulásban jelentős előrelépéssel kecsegtető új architektúrára épül.
A professzionális felhasználásra szánt Quadrók, illetve a játékosokat célzó GeForce-ok után az adatközpontos Tesla termékcsaládot is elérte az Nvidia legújabb grafikus mikroarchitektúrája, a Turing. A chiptervező állítása szerint a friss fejlesztését elsőként alkalmazó Tesla T4 drámai előrelépést nyújthat az épp két éve bemutatott előd P4-hez képest, az új termék bizonyos esetekben akár tizenkétszeres gyorsulással is kecsegtethet. Hab a tortán, hogy mindezt a TDP keret növelése nélkül, szerény, külső tápellátást nem igényelő 75 wattos maximális disszipáció mellett képest produkálni az új gyorsítókártya. A minden téren tetemes fejlődésnek hála a legújabb Tesla sikerre lehet ítélve, amit meglovagolva tovább erősítheti vezető pozícióját az adatközpontos gyorsítók piacán az Nvidia.
A sztenderd PCI Express csatolós Tesla T4 a GeForce GTX 2080 és 2070 kártyákkal bemutatkozott TU104 GPU-ra épül, pontosabban annak kissé megnyirbált verziójára. A 2944 CUDA magot tartalmazó lapkának egy részét ugyanis letiltották a mérnökök, így a grafikus processzorban 2560 darab aktív végrehajtó maradt. Ehhez társul 320 úgynevezett Tensor mag, amely a gépi tanulásos műveletek gyorsítása miatt került be a GPU-ba. A Voltával debütált fejlesztés képességeit bővítette az Nvidia, melynek hála az INT8 (8 bites integer) mellett már INT4 (4 bites integer) műveleteket is képes végrehajtani a rendszer, az utóbbit a 8 bitesnél kétszer nagyobb tempóban. Az új Tesla ezt egy még ezeknél is szerényebb pontosságú, mindössze 1 bites egészszámos végrehajtással fejeli meg, bár ez egyelőre csupán kísérleti funkcióként van jelen. Az alacsony pontosságú formátumok bizonyos gépi tanulásos modellek esetén komoly sebességnövekedést hozhatnak, ám ehhez természetesen optimalizáció szükséges.

A hazai IT felrázásához haza kell hozni a legjobbjainkat Az elvándorolt szakemberek visszacsábítása komoly kihívás, azonban számos ország már megmutatta, hogy ez nem lehetetlen feladat.
Az Nvidia számszerűsítette is a várható előrelépést. Félpontosságú lebegőpontos (FP16) számítások esetében közel tizenkétszeres gyorsulásra lehet számítani, hisz míg a T4 65, addig a P4 csupán 5,5 TFLOPS teljesítményre képes. Gépi tanulásos INT8 (8 bites integer) műveletek esetében már "csak" hatszoros a javulás (22 vs. 130 TOPS), INT4-ben azonban ismét közel tizenkétszeres lehet az ugrás. Ahogy a P4-et, úgy a most bejelentett utódot is elsősorban nagy sűrűségű, scale-up rendszerekbe szánja az Nvidia, ahol a szoftveres környezet megfelelően profitálhat a jellemzően több GPU-s kiépítésből. A kártya ennek megfelelően továbbviszi a félmagas, azaz low profile kialakítása, amellyel megtartja széleskörű kompatibilitását.
Végül, de nem utolsó sorban konkrét felhasználási területekre is kitért az Nvidia. A tervezőcég VDI (Virtual Desktop Infrastructure) mellett többek között videokódoláshoz ajánlja a Tesla T4, amely az ígéret szerint akár 38 darab FullHD streamet is képes lehet egyazon időben dekódolni. Emellett természetesen különféle gépi tanulásos munkafolyamatokhoz is ideális lehet a rendkívül hatékony T4. Ehhez jóformán az összes népszerű frameworkot támogatja a termék, amelynek listáján a PyTorch, a TensorFlow, az MXNet, illetve a Caffee2 is szerepel. A kártyához jár a TensorRT 5 gépi tanulásos következtetési (inferencing) optimalizáló és runtime motor, amely teljesen kihasználja a már említett Tensor magok képességeit.