Szerző: Bodnár Ádám

2004. február 6. 10:40

Intel Pentium 4 Prescott: egyet előre, kettőt hátra?

Amikor meghallottuk a Prescottról szóló első pletykákat, azt gondoltuk, hogy a nagyobb gyorsítótárak miatt azonos órajelen is elhúz a Northwoodtól, ráadásul kisebb csíkszélességének köszönhetően jóval magasabb órajelet érhet el. Szerkesztőségünk egy 3,2 GHz-es órajelű, Prescott magos Pentium 4 chipet tett a boncasztalra.

Korábban már számtalanszor írtunk róla, hogy a Prescott magos Pentium 4 az első olyan processzor, amelyet 90 nanométeres csíkszélességgel gyárt az Intel. E gyártástechnológia vállalaton belül használatos kódneve P1262. A P az angol process, azaz feldolgozás szóra, a 12 a waferek hüvelykben számított átmérőjére, a 62 pedig a csíkszélességre utal. Utóbbi a csíkszélesség csökkenésével folyamatosan nő, a Northwood magos Pentium 4-hez használt technológia kódneve P860, illetve később, a 300 milliméteres waferekre történt áttérés után P1260 volt. A Willamette magos Pentium 4-et P858 technológiával gyártotta az Intel.

Kódnév
P856
P858
Px60
P1262
P1264
P1266
P1268
P1270
Bevezetés éve
1997
1999
2001
2003
2005
2007
2009
2011
Csík- szélesség (nm)
250
180
130
90
65
45
32
22
Wafer átmérő (mm)
200
200
200/ 300
300
300
300
300
300
Interconnect
Al
Al
Cu
Cu
Cu
Cu
Cu
?
Csatorna
Si
Si
Si
feszített Si
feszített Si
feszített Si
feszített Si
feszített
Si
Kapu dielektrikum
SiO2
SiO2
SiO2
SiO2
SiO2
high-k
high-k
high-k
Kapu- elektróda
poly-Si
poly-Si
poly-Si
poly-Si
poly-Si
fém
fém
fém

Ismert, hogy a csíkszélesség csökkentése esetén adott tranzisztorszám mellett csökken a chip mérete, így növelhető a szilíciumszeleten elhelyezhető processzorok száma, azaz adott mennyiségű wafer feldolgozása több legyártott lapkát eredményez. A Prescott magos Pentium 4 125 millió tranzisztort tartalmaz, mérete 112 mm2. A Northwood 55 millió tranzisztorból állt és 131 mm2 méretű volt. A Willamette 217 mm2 méretű volt és 43 millió tranzisztorból állt. Látható, hogy a tranzisztorszám közel háromszoros növekedése ellenére a Prescott némileg kisebb a Northwoodnál.


A 125 millió tranzisztorból álló Prescott mag (fent látható az 1 Mbyte L2 cache)

Az új, P1262 kódnevű, 90 nanométeres félvezetőgyártási technológia többek között magában foglal a korábbinál nagyobb teljesítményű és alacsonyabb fogyasztású tranzisztorokat, "feszített szilíciumot", nagy sebességű rézalapú átkötéseket és egy új, kis k-együtthatójú dielektrikummal történő szigetelési technológiát. Az Intel a világon elsőként alkalmazza ezen eljárásokat egy gyártási technológián belül.

Az Intel új gyártástechnológiájában alkalmazott tranzisztorok kapuhossza mindössze 50 nanométer, amely a valaha sorozatgyárásba került CMOS tranzisztorok közül jelenleg a legkisebb. A P1262 eljárással gyártott chipek tranzisztorjainak nikkel-szilicid kapuoxidja mindössze 5 atomnyi, azaz 1,2 nanométer vastag. Minél vékonyabb a kapuoxid, annál nagyobb sebességre képes a tranzisztor. A "feszített szilícium" technológiának köszönhetően az elektromos áram nagyobb sebességgel áramolhat a vezetékekben, így az áramkör magasabb órajelen működhet. Az Intel a világon elsőként alkalmazza sorozatgyártásban a "feszített szilícium" technológiát.

A 90 nanométeres gyártástechnológia hétrétegű alkatrészek előállítását teszi lehetővé, a rétegek között rézcsatlakozásokkal és alacsony k-együtthatójú dielektrikummal történő szigeteléssel. Az új CDO (carbon-doped monoxide) dielektrikum az Intel mérései szerint 18 százalékkal csökkenti a kapacitív ellenállást a 130 nanométeres gyártástechnológiában jelenleg alkalmazott SiOF (fluorin-incorporated silicon oxide) dielektrikumhoz képest. A P1262 gyártási eljáráshoz a világ legnagyobb félvezetőgyártója 248 és 193 nanométeres hullámhosszú litográfiai berendezéseket használ. A 130 nanométeres csíkszélességű gyártásban alkalmazott berendezések mintegy 75 százalékát az új gyártástechnológiában is alkalmazni lehet, amivel jelentős költségmegtakarítás érhető el.

Az Intel először 2002. márciusában adott hírt a 90 nanométeres csíkszélességű gyártástechnológiáról, akkor 52 megabites SRAM lapkákat állított elő a cég. A legyártott chipek 330 millió tranzisztort tartalmaztak 109 mm2 magméret mellett. A vállalat elsőként az hillsborói (Oregon, USA) D1C gyárában vezette be az új gyártástechnológiát, a mai napig pedig összesen három üzemben (D1C, Fab 11X, Fab 24) álltak át a 90 nanométeres csíkszélességű alkatrészek sorozatgyártására.


A 90 nanométeres gyártástechnológia felfutási üteme az Intel tervei szerint

Az Intel jelenleg a Prescott magos Pentium 4-et, valamint a Dothan magos Pentium M lapkát gyártja az új technológiával. A vállalat állítása szerint a P1262 lesz a leggyorsabban felfutó új gyártási eljárás az Intel történetében. A cég tavaly november végi bejelentése szerint a hillsborói D1D gyárban már zajlik a 65 nanométeres csíkszélességű technológia fejlesztése is, amelyet várhatóan 2005-ben vezetnek be.

[oldal:Mikroarchitekturális újítások]

A Prescott magos Pentium 4 felhasználók számára legfontosabb újdonsága a megnövekedett másodszintű gyorsítótár. A Northwood esetében ennek mérete 512 kbyte volt, a Prescott esetében pedig 1 Mbyte-ra hízott. Noha az Intel korábbi terveiben az szerepelt, hogy az elsőszintű adat- és utasításcache-t is megkettőzi, ebből végül csak az előbbi valósult meg, az L1 adatcache mérete 8-ról 16 kbyte-ra növekedett. A gyorsítótárak növekedése magával hozta a késleltetések növekedését is. Az L1 adatcache késleltetése a korábbi 2 helyett immár 4 órajelciklus, a másodszintű gyorsítótár késleltetése pedig 18 ciklusról 28-ra emelkedett. A gyorsítótárak késleltetésének növekedését részben ellensúlyozza, hogy a processzorban hatékonyabb prefetch logika található.

Késleltetések (órajelciklus)

L1 cacheL2 cacheL3 cacheMemória
Northwood218-250
Gallatin21840253
Prescott428-253

Az L1 utasításcache (trace cache) továbbra is csupán 12 ezer mikroutasítás tárolására alkalmas, noha az Intel korábbi terveiben még ennek kétszerese szerepelt. Amint az ismert, a Pentium 4 esetében az elsőszintű utasításcache a dekóder után található és trace cache-nek hívják. A gyorsítótárban nem x86 utasítások, hanem dekódolt mikroutasítások találhatók. E megoldás révén magasabb órajel érhető el, ugyanis csak ritkábban van szükség a dekóderre, így ennek esetleges lassú működése nem fogja vissza a processzort. Ha hihetünk a pletykáknak, a következő generációs AMD K9 processzorban is ilyen jellegű megoldással találkozhatunk majd.

A Prescott legnagyobb meglepetését a meghosszabbított futószalag okozta: a Willamette és a Northwood esetében húszfokozatú futószalagot alkalmazott az Intel, a Prescottban a fokozatok száma 31-re emelkedett. A fokozatok pontos leírását eleddig nem hozta nyilvánosságra az Intel. Ismert, hogy a modern processzorok a végrehajtóegységek minél hatékonyabb kihasználása érdekében az utasítások végrehajtását több részletre bontják, a futószalag fokozatainak száma gyakorlatilag azt mutatja meg, hogy egy utasítás végrehajtása hány lépcsőben történik meg. A fokozatok számának megnövelése lehetőséget ad az órajel növelésére, hiszen ha az utasítások végrehajtását a korábbinál több, de egyszerűbb részre bontjuk, a részfeladatok végrehajtása kevesebb ideig tart, így "bele lehet férni" a rövidebb órajelciklusokba.


A Prescott mag blokkvázlata, sárga színnel az újdonságok a Northwoodhoz képest

A hosszú futószalag az elágazások téves becslése esetén hátrány, hiszen téves becslés esetén a futószalagot ki kell üríteni, újra fel kell tölteni és a program futását a másik (helyes) ágon kell folytatni. Nyilvánvaló, hogy 31 futószalag-fokozatot kiüríteni és feltölteni tovább tart, mint 20 fokozatot. E probléma hatásainak csökkentése érdekében az Intel jelentősen javított a Prescott elágazás-becslésén: a chipbe egy-az-egyben bekerült a Banias magos Pentium M-ben található három-módusú elágazásbecslő egység, amely a jelenleg dokumentált megoldások közül talán a legfejlettebb. Az Intel állítása szerint az új elágazásbecslő logika 20 százalékkal csökkenti a téves becslések számát. A Prescott elágazásbecslő egysége 98-99 százalékos hatékonyságú, azaz 100 esetből 98-99 alkalommal helyes becslést ad.

A hosszú, gyors futószalag kifejezetten kedvez a streaming-jellegű programok futásának, így a Prescott igazán az ilyen alkalmazások alatt mutathatja meg oroszlánkörmeit. A processzor az MMX, SSE és SSE2 mellett támogatja az SSE3 utasításkészletet is, amely összesen 13 új parancsot tartalmaz: 5 a komplex aritmetikai műveletek gyorsítására szolgál, 4 új lebegőpontos vektorutasításunk is van, ezen felül 2 utasítás szolgál az utasításszálak párhuzamos végrehajtását lehetővé tevő Hyper-Threading technológia hatékonyabb kihasználására, illetve 1-1 új utasítás áll rendelkezésre a videotömörítés gyorsítására, valamint lebegőpontos számok egésszé konvertálásához. A Hyper-Threadinggel kapcsolatos új utasításokról tudni lehet, hogy az operációs rendszerekhez kiadott javítócsomag segítségével alkalmazhatók, azaz használatukhoz, előnyeik kiaknázásához nem szükséges az alkalmazások újraírása vagy újrafordítása. Természetesen az SSE3 utasításokat használó programok megjelenésére még várni kell.

Mikroarchitekturális szinten lényeges változás ment végbe az egész végrehajtóegységek körül. Amint az ismert, a Pentium 4 három fixpontos végrehajtóegységgel rendelkezik, amelyek közül kettő (Rapid Execution Engine, a fenti ábrán "2X ALU") kétszeres magsebességen működik. Ezek az egyszerűbb utasításokat hajtják végre, a komplex műveletek a magsebességen üzemelő egységre maradnak. Újdonság, hogy a shift/rotate műveleteket immár az egyik, kétszeres magsebességen működő fixpontos egység hajtja végre. Az alábbi táblázatban jól látható, hogy a "bitforgatás balra" (ROL) utasítás késleltetése jelentősen csökkent.

Utasítások késleltetése (órajelciklus)

UtasításNorthwoodGallatinPrescott
DIV (egész osztás)56,9656,9976,15
MUL (egész szorzás)14,0614,0610,91
ADD (egész összeadás)0,430,420,91
ROL (bitforgatás balra)3,933,930,91
INC (értéknövelés)0,680,680,93

További fontos fejlesztés, hogy a Prescott dedikált logikát tartalmaz az egész szorzás (MUL) elvégzésére, emiatt csökkent az ilyen műveletek végrehajtási ideje (lásd a fenti táblázatot). A Northwood esetében az egész szorzásokat is a lebegőpontos egység hajtotta végre, ez a végrehajtás jelentős késleltetését eredményezte, hiszen a fixpontos adatokat előbb lebegőpontossá kellett alakítani, majd a művelet elvégzése után ismét fixpontossá kellett konvertálni. Az Intel mérnökei tovább finomítottak Hyper-Threading-en, egyes pufferek méretének megnövelésével két utasításszál párhuzamos futtatása esetén némileg javuló teljesítményt ígér a vállalat.

[oldal:Tesztek: szintetikus benchmarkok]

Tesztünkben arra voltunk kíváncsiak, a Prescott mag azonos órajelen hogyan teljesít elődjéhez, a Northwoodhoz képest. Éreztetik áldásos hatásukat a megnövekedett gyorsítótárak, vagy a megnövelt méretű futószalag és az emelkedő cache latency kerekedik felül? A méréseket egy Intel D875PBZ "Bonanza" alaplapból, 2x256 Mbyte KingMax DDR400 memóriából és egy ATI Radeon 9800 Pro grafikus kártyából álló konfiguráción végezük el. A tesztben egy 3,2 GHz órajelű Prescott, egy 3,2 GHz órajelű Northwood és egy 3,2 GHz-es Gallatin (Pentium 4 Extreme Edition) processzor teljesítményét hasonlítottuk össze. A számítógépen Windows XP Professional Edition operációs rendszert futtattunk, a videokártyához pedig a 3.8 verziójú Catalyst meghajtót használtuk. Vessünk egy pillantást a tesztben szereplő processzorok legfontosabb tulajdonságaira:

ProcesszorPentium 4Pentium 4 Extreme EditionPentium 4
KódnévNorthwoodGallatinPrescott
Csíkszélesség130 nm130 nm90 nm
Tranzisztorok száma55 millió169 millió125 millió
Méret131 mm2237 mm2112 mm2
L1 adatcache8 kbyte8 kbyte16 kbyte
L1 trace cache12 ezer micro-op12 ezer micro-op12 ezer micro-op
L2 cache512 kbyte512 kbyte1 Mbyte
L3 cachenincs2 Mbytenincs
Futószalag fokozatok202031
Utasításkészletx86, MMX, SSE, SSE2x86, MMX, SSE, SSE2x86, MMX, SSE, SSE2, SSE3
Hyper-Threadingtámogatotttámogatotttámogatott
LaGrandenincsnincstámogatott*
Tokozás/FoglalatFC-PGA/ Socket478FC-PGA/ Socket478FC-PGA/ Socket478, LGA/ Socket-T*

* később kerül bevezetésre

Elsőként a magyar fejlesztésű AIDA32 segítségével vizsgáltuk meg az eltérő összeállítások memória-sávszélességét. A Prescott itt látványosan felülmúlta versenytársait, amelynek minden bizonnyal a hatékonyabb prefetch logika az oka.

A továbbiakban a tudományos számításokat felvonultató ScienceMark 2.0 programmal folytattuk a tesztelést, a Prescott itt sajnos már közel sem teljesített olyan fényesen, minden alkalmazásban lassabbnak bizonyult a vetélytársaknál. Az alábbi táblázatokban másodpercben megadott futási idők láthatók, értelemszerűen a kisebb érték jelent nagyobb számítási teljesítményt.

A WinRAR segítségével egy 573 Mbyte méretű WAV állományt tömörítettünk össze, a táblázatban a futási idő látható másodpercben, a kisebb érték jelent nagyobb teljesítményt.

A WinRAR tesztben a Prescott némileg megelőzte a Northwoodot, de a hatalmas L3 gyorsítótárral rendelkező Pentium 4 Extreme Editionnel szemben alulmaradt. A következő tesztprogram a PCmark04 változata volt.

A Prescott hajszállal az élen végzett, de a különbségek gyakorlatilag akár mérési hibának is tekinthetők, oly kicsik.

[oldal:Tesztek: professzionális grafika, multimédia]

A szintetikus tesztek után professzionális alkalmazásokat hívtunk segítségül. Elsőként az OpenGL alkalmazások alatt nyújtott teljesítményt mérő SPECviewperf 7.0 következett, amelyben a Prescott magos Pentium 4 eredménye az eddigiek fényében igen jónak mondható, valószínűleg a kitűnő memória-sávszélesség eredmények miatt, amelyre ez a program igen érzékeny.

A Maxon Cinebench 2003 rendering tesztje kihasználja a Pentium 4 processzorok Hyper-Threading technológiájában rejlő előnyöket, a leképezés látványosan gyorsul. Az Intel mérnökei által a Prescott kapcsán ígért teljesítmény-javulás azonban nem érzékelhető, a kétprocesszoros renderelés mindhárom processzor esetében azonos mértékben, 19 százalékkal javult.

A professzionális grafikus tesztek után multimédiás alkalmazásokat futtattunk. Először egy teljes audio CD-t (573 Mbyte méretű WAV állomány) tömörítettünk be 393 kbps VBR Windows Media Audio formátumba a Windows Media Encoder 9 segítségével, azután pedig a Matrix: Reloaded DVD első 30:39 másodpercét alakítottuk át DivX formátumba a Dr. DivX alkalmazással. A táblázatokban a futási idő van megadva másodpercben, azaz a kisebb érték jelent nagyobb teljesítményt.

Az audiotömörítésben a Prescott magos Pentium 4 sajnos elég csúnyán leszerepelt, a Dr. DivX futtatásánál azonban látványosan erőre kapott és maga mögé utasította a vetélytársakat. Amennyiben ezeket a tömörítő-alkalmazásokat a programozók optimalizálják az SSE3 utasításkészletre, a Prescott valószínűleg jobban teljesítene, azonban erre egyelőre még várni kell.

[oldal:Tesztek: játékok]

Játéktesztként a jól ismert Quake III Arenát, az előbbi motorjának továbbfejlesztett változatára épülő Wolfenstein: Enemy Territoryt, az Unreal Tournament 2003-at, a lélegzetelállító hangulató Microsoft Halót, valamint a processzort rendesen próbára tevő Comanche 4 helikopter-szimulátort használtuk.

A játéktesztekben a Prescott teljesítménye az esetek legnagyobb részében némileg elmarad a Northwoodétól és messze kisebb a 2 Mbyte harmadszintű gyorsítótárral ellátott Pentium 4 Extreme Edition eredményénél. Játékra tehát továbbra is az óriási cache-sel felszerelt, méregdrága Extreme Edition a legjobb választás.

[oldal:Értékelés]

A tesztekből jól látható, hogy hiába a megnövekedett gyorsítótár és a számos architekturális fejlesztés, azonos órajelen a Prescott néhol némileg, néhol lényegesen lassabb elődjénél. Ez részben a megnövekedett futószalag átkos hatásainak, másfelől a gyorsítótárak nagyobb késleltetésének köszönhető. Jelen körülmények között a Prescott nem nyerő, ez biztos, a processzorban található 125 millió tranzisztor azonban még okozhat meglepetéseket. Amint arról beszámoltunk, George Alfs, az Intel amerikai sajtókapcsolati igazgatója nemrégiben egy interjúban elmondta, hogy a Prescottban számos új funkció található, azonban ezek egy része csak később kerül aktiválásra. Egyelőre csak találgatni lehet, hogy Alfs pontosan mire is gondolt.

Azt már tudni lehet, hogy a korábban LaGrande néven emlegetett biztonsági funkció a most piacra került chipekben még nincs aktiválva. Ennek legfőbb oka, hogy a funkció kihasználásához a processzorba épített áramkörökön kívül szükséges a megfelelő chipkészlet, BIOS, valamint a perifériák -- billentyűzet, videokártya -- "biztonságos" meghajtóprogramjai. A LaGrande elsősorban vállalati professzionális felhasználók számára lehet hasznos, ahol az üzletmenetet közvetlenül érintő információk keletkeznek és tárolódnak a felhasználók számítógépén.

Mivel a hálózati kommunikáció ilyen környezetben rendszerint titkosított és a szerverekhez való illetéktelen hozzáférés is szinte lehetetlen, a rosszindulatú felhasználók rendszerint közvetlenül a kliensgépekről tulajdonítják el az adatokat. A LaGrande segítségével titkosítható az adatok ki- és bevitele, valamint a programok végrehajtásakor használt memóriaterület, így az Intel szerint meg lehet akadályozni az illetéktelen hozzáférést, a billentyűzetfigyeléssel való jelszólopást, illetve a grafikus kártya felé továbbított adatokból az információk kinyerését.

Amikor meghallottuk a Prescottról szóló első híreket, azt gondoltuk, hogy a a nagyobb gyorsítótárak miatt azonos órajelen is elhúz a Northwoodtól, ráadásul kisebb csíkszélességének köszönhetően jóval magasabb órajelet érhet el, ráadásul alacsonyabb fogyasztás és hőtermelés mellett. Úgy tűnik, a csíkszélesség csökkenése magával hozta a szivárgási áram emelkedésének káros hatásait is, emiatt a Prescott azonos órajelen lényegesen több hőt termel, mint a Northwood, vagy akár a 169 millió tranzisztorból álló Gallatin.

A szivárgás (szivárgási áram) a félvezetők lezárt átmenetén létrejövő jelenség, amely szabad elektronok és lyukak kombinációjából származik és nanoamper nagyságrendű. Ez a jelenség az egyik legnagyobb probléma a nagyteljesítményű processzorok tervezésében. A processzorok fogyasztása a működési feszültség csökkentésével mérsékelhető, azonban ahogy a tranzisztorok nyitófeszültsége (az a feszültségszint, amikor a tranzisztor "bekapcsol") tart a 0 Volthoz, a szivárgási áram nő és egyre nagyobb problémát okoz.

A szivárgási áram elsősorban azért jelent komoly problémát a növekvő komplexitású processzorokban, mert a lapkában található összes tranzisztorban jelen van, még azokban is, amelyek az adott időpillanatban nem aktívak -- az aktív tranzisztorok száma egy adott pillanatban általában 10 százalék körüli. Ezért a szivárgás rendkívüli módon növeli a disszipációt, ráadásul az áramkör bonyolultságával, a tranzisztorszám növekedésével együtt növekszik. A szivárgási áram -- mivel a tápfeszültséggel fordítottan arányos -- egy kisebb csíkszélességű gyártástechnológia bevezetésénél akár két-háromszorosára is nőhet.

Méréseink szerint a Prescott magos Pentium 4 lényegesen jobban melegszik a Northwoodnál és a Gallatinnál. Próbaképp a Matrix: Reloaded film tömörítése közben mértük a processzorok hőmérsékletét, ami a Prescott esetében 8-9 fokkal magasabb volt, mint a Gallatinnál és a Northwoodnál.

Sajnos a Prescott nem váltotta be a hozzá fűzött várakozásokat, hiába a 90 nanométeres technológia és a sok architekturális fejlesztés, azonos órajelen jelenleg a régebbi Northwood nyújt némileg nagyobb teljesítményt. Az Intel tervei szerint azonban a Northwood utolsó változata a 3,4 GHz-es kivitel, ezután már csak Prescott magos Pentium 4-ek kerülnek a piacra, ráadásul a jelenlegitől eltérő tokozásban és új, DDR2 SDRAM-ot támogató chipkészletek társaságában.

A hosszabb, 31 fokozatú futószalag lehetőséget ad az Intel számára az órajel további emelésére, a Prescott a tervek szerint az év végére 4 GHz-es órajelen jár majd, jövőre pedig akár 5 GHz-en is ketyeghet, ennek elérésére a Northwood minden bizonnyal képtelen lenne. Hosszú távon tehát mindenképp a Prescotté a pálya, jelenleg azonban csupán egy jövőbeli lehetőségként számolhatunk vele. Magas órajeleken a Prescott még szolgálhat meglepetésekkel, temetni még korai lenne, dicsőíteni pedig egyelőre nincs miért.

Szólj hozzá a fórumban!

A kraftie a HWSW IT-karrierrel foglalkozó, immár sok tízezer IT szakembert mozgató meetup- és podcast-sorozata. Mostantól pedig már egy hírlevél is! Iratkozz fel Te is, ha szeretnél heti egyszer egy rövid, de értékes karrierfókuszú tartalmat kapni.

a címlapról