Szerző: Gálffy Csaba

2012. május 18. 10:47

Hétmilliárd tranzisztort tartalmaz az új Tesla

Két új, Tesla-családba tartozó feldolgozó egységet mutatott be az NVIDIA. A K10 névre keresztelt egység a vállalat Kepler GPU-jára épül, a néhány hónap múlva érkező K20 azonban vadonatúj fejlesztés lesz, kifejezetten számításigényes GPGPU feladatokra.

Két szegmensre bontja a Tesla kártyák piacát az NVIDIA, egyrészt a termékek piaci elérhetőségének, másrészt az eltérő igényeknek betudhatóan. Ugyanis míg a "valódi" Tesla, a kifejezetten nagyteljesítményű számításokra tervezett K20 bemutatkozására még 5-6 hónapot várni kell, a kistestvér gyors piacra dobásával egyes szegmensek igényeit már ma ki tudja szolgálni a gyártó.

K10 - konzumer alapokon

A kisebbik Tesla az NVIDIA GK104 lapkájára épül, ezekből kettő található meg a kártyán. Ezzel a K10 gyakorlatilag egy módosított GTX 690-nek felel meg. A két lapkához négy-négy gigabájt GDDR5 memória tartozik, egyenként 256 bites szélességű memóriabuszon, az adatok áramlását pedig ECC figyeli. A kártya így kétszer 1536 CUDA-maggal rendelkezik majd, amelyekhez 2x128 textúrázó egység és 2x32 ROP tartozik. A magok órajele 745 megahertz, a memóriáé 5 gigahertz (effektív).

A kártya által megcélzott szegmenst alaposan behatárolja a dupla pontosságú lebegőpontos műveletek végrehajtásának sebessége, ez mindössze huszonnegyede az FP32 utasítások végrehajtásának. Ezzel a limitációval az NVIDIA is tisztában van, a K10-et így elsősorban képfeldolgozásra ajánlja, például olaj- és gázmezők után kutató cégeknek, valamint védelmi és kormányzati szervezeteknek kép- és videoelemzéshez, valamint jelfeldolgozáshoz. Ezekhez a számítási feladatokhoz magas FP32 sebesség és hatalmas memória-sávszélesség kell, a K10 pedig  mindkettővel bőségesen rendelkezik.

Ugyan a GeForce GTX 680 (és GTX 690) általános célú számítási teljesítménye kifejezetten csalódást keltő, megfelelő feladatok alatt elő lehet csalni a kétchipes kártyából 4,58 teraflop számítási kapacitást és a memória-sávszélesség is 320 gigabájt másodpercenként. A kártya TDP-jét (tipikus hőkeret) az NVIDIA az előd M2090 szintjére, 225 wattra lőtte be, ahogy az eszköz ára is hasonló, 2500 dollár maradt. A K10 hivatalosan már kapható a piacon, az NVIDIA partnereinek késlekedése miatt azonban pár napot várni kell az általános elérhetőségig.

K20 - három és fél Tukwila

A K10 mellett az NVIDIA elkezdett beszélni a "valódi" új Tesláról, a K20 névre keresztelt monstrumról is. A kifejezés helytálló, az NVIDIA szerint a GK110-re épülő K20 lapkája mintegy 7,1 milliárd tranzisztort tartalmaz, ami számításaink szerint hozzávetőleg 1000 négyzetmilliméteres alapterületnek felel meg. Összehasonlításképpen az Intel legnagyobb processzora, a négymagos Tukwila Itanium mintegy kétmilliárd tranzisztort tartalmaz, mérete pedig (65 nanométeres eljáráson) mintegy 700 négyzetmilliméter.

A TSMC 28 nanométeres gyártástechnológiájával készülő lapka pontos specifikációit nem közölte az NVIDIA, a felépítésről és a várható funkcionalitásról azonban ejtett néhány szót. A majdani felhasználók számára az egyik legfontosabb, hogy a K10-zel ellentétben a K20 teljes ECC-védelmet élvez mind a memória, mind a gyorsítótár szintjén, a dupla pontosságú (FP64) számítási teljesítmény pedig többszöröse lesz mind az elődmodelleknek, mind a K10-nek.

Toxikus vezetők szivárványa

Az IT munkakörülményeket, a munkahelyi kultúrát alapjaiban határozzák meg a vezetők, főleg ha még toxikusak is.

Toxikus vezetők szivárványa Az IT munkakörülményeket, a munkahelyi kultúrát alapjaiban határozzák meg a vezetők, főleg ha még toxikusak is.

A K20 alapelemei is az SMX-re keresztelt számítási blokkok, ezek másfél megabájt másodszintű gyorsítótáron és a 384 bites memóriabuszon osztoznak. Egy SMX 192 CUDA-magból épül fel, ezekből 64 képes FP64 utasítások végrehajtására. A K10/GF104 ugyanennyi CUDA-magot tartalmaz blokkonként, ott az FP64-képes futószalagok száma azonban blokkonként 8. A változásnak köszönhetően az FP64 utasítások végrehajtási sebessége már egyharmada lesz az FP32 utasításokénak. Mivel a kártya még nem végleges, a pontos órajelekről, az aktivált SMX-ek számáról illetve a memória mennyiségéről az NVIDIA nem hozott még döntést.

A K20 a CPU tehermentesítésére és a GPU magasabb kihasználtságára is nagy hangsúlyt fektet, az NVIDIA két hasonló célú technológiát is bemutatott. A Hyper-Q képesség azt jelenti, hogy a Fermi egyetlen feladatával szemben a Kepler 32 feladatot képes egyszerre kezelni, így a lapka kihasználtsága számottevően megnő. A Dynamic Parallelism képesség keretében pedig a GPU-n futó kernelek képesek egymást meghívni, így csökkenthető a CPU-val való kommunikáció gyakorisága - egy központi processzor így több GPU-t tud kiszolgálni.

Nagyon széles az a skála, amin az állásinterjú visszajelzések tartalmi minősége mozog: túl rövid, túl hosszú, semmitmondó, értelmetlen vagy semmi. A friss heti kraftie hírlevélben ezt jártuk körül. Ha tetszett a cikk, iratkozz fel, és minden héten elküldjük emailben a legfrissebbet!

a címlapról