Szerző: Bizó Dániel

2006. május 03. 16:20:41

Túlhevülés miatt hibázhatnak egyes Opteronok

[Reg Hardware/HWSW] Kellemetlen esetbe ütközött az AMD, miután olyan Opteron processzorok kerültek a piacra, amelyek extrém körülmények között túlmelegedhetnek, és hibás számításokat végezhetnek -- a felhasználó adataiban sérülést előidézve. A Reg Hardware értesülései szerint az AMD levélben értesítette partnereit és kiemelt ügyfeleit az esetről, és velük együttműködve a chipek megtalálásán is kicserélésén dolgozik. Az információt azóta a vállalat is elismerte.

[Reg Hardware/HWSW] Kellemetlen esetbe ütközött az AMD, miután olyan Opteron processzorok kerültek a piacra, amelyek extrém körülmények között túlmelegedhetnek, és hibás számításokat végezhetnek -- a felhasználó adataiban sérülést előidézve. A Reg Hardware értesülései szerint az AMD levélben értesítette partnereit és kiemelt ügyfeleit az esetről, és velük együttműködve a chipek megtalálásán is kicserélésén dolgozik. Az információt azóta a vállalat is elismerte.

Extrém feltételek mellett

A jelenség az egymagos, 2,6 és 2,8 gigahertzes Opteronokat érintheti. A hiba akkor jelentkezik, ha a chip kizárólag lebegőpontos műveleteket végez egymást követő hurkokban, bármiféle megszakítás nélkül (pl. feltétel-ellenőrzés, téves elágazásbecslés), magas környezeti hőmérséklet közepette. A rendkívül intenzív és szüntelen, akár órákon át tartó koncentrált tranzisztor-aktivitás lokális túlmelegedést eredményezhet, ami végeredményben az adatok észrevétlen sérülését, hibás számításokat eredményezhet.

Az AMD úgy hiszi, csak nagyon kevés hibás chip kerülhetett forgalomba, talán nem több mint háromezer. Ezen túlmenően a hiba csak rendkívül szélsőséges körülmények között lép fel, a vállalat például nem ismer olyan valós alkalmazást, amely a jelenséghez szükséges kódot tartalmazna, azt kizárólag szándékosan sikerült produkálni. A Reg Hardware egyik névtelen forrása szerint talán egy titkosító algoritmus használhat ilyen kódot.

Az AMD a hiba felfedezését követően ezzel a vizsgálattal is kiegészíti ellenőrzési gyakorlatát, amely a gyártósorról lekerült chipek piacra dobás előtti tesztelését szolgálja -- pont az ilyen esetek megakadályozása végett. Szerencsére a hiba egyszerűen orvosolható, a chip órajelét csökkenteni kell, így egy fokozattal lassabb termékként kell kereskedelmi forgalomba helyezni. Pénzügyileg tehát valószínűleg nem érinti a vállalat teljesítményét a helyzet.

Néhány száz atomon nyugvó bizalom

Az eset jó emlékeztető arra, hogy a processzorok sem hibátlanok -- függetlenül a gyártótól. Sőt, komplexitásuk és a miniatürizáció fokozódásával egyre nehezebb a gyártók számára, hogy megfelelően megbízható termékeket dobjanak a piacra, méghozzá időben. Hasonlóan a szoftverekhez, a processzorok is számtalan hibát tartalmaznak, jellemzően néhány tucatot, ezek azonban többnyire egyáltalán nem kritikusak, mivel azokat még a chip piacra dobása előtt korrigálják.

A hordozott kockázat azonban nagyságrendekkel nagyobb, hiszen nem lehet frissíteni a már kint lévő chipek tíz- és százmillióit, ahogyan az a szoftverek esetében történik, valamint a hibák olyan alacsony szinten történnek, hogy akár észrevétlenek is maradhatnak az emberek előtt -- ami a vállalati szerverek esetében például elfogadhatatlan.

Ezt szenvedte el az Intel még legelső Pentium chipjével, amelyről 1994-ben kiderült hogy egy bizonyos ritka osztást hibásan hajt végre, ezért a chipeket tömegesen kellett visszacserélnie a cégnek. Alapjaiban remegett bele a vállalat, külön válságkezelésre volt szükség a helyzet rendbetételére, és az arcvesztés tompítására, nem beszélve a pénzügyi vonatkozásokról: az Intelnek a baklövés több mint félmilliárd dollárjába került. Történt mindez annak ellenére, hogy akkoriban a vállalat termékeit nem használták még szerverekben, kizárólag asztali gépek működtek Intel processzorokkal.

A szerverek piacán ennél nagyságrendekkel nagyobb bizalmat kell kiépíteni, nem utolsósorban a chipek sokkal szigorúbb elvek, magasabb követelmények mentén való tervezése, tesztelése és gyártása révén. Az egyes Opteronok túlhevüléséből fakadó működési hibák pedig ezt az AMD felé irányuló bizalmat gyengíthetik, különösen egy olyan időszakban, mikor még folyamatban van a piaci bizalom elnyerése és megszilárdulása.

a címlapról