Mellékleteink: HUP | Gamekapocs
Keres

A szökőév döntötte be a Windows Azure-t

Gálffy Csaba, 2012. március 01. 10:57
Ez a cikk több évvel ezelőtt születetett, ezért előfordulhat, hogy a tartalma már elavult.
Frissebb anyagokat találhatsz a keresőnk segítségével:

Hosszas zavart okozott a Microsoft platformszolgáltatásában a szökőév, az észleléstől számítva több mint 24 órába került elhárítani a hibát, kisebb, nem kritikus fennakadások pedig még jelen pillanatban is tapasztalhatóak. Sötét napja volt az Azure-nek 2012. február 29.

Nem kezelte helyesen a szökőévet az egyik időszámoló algoritmus, ennek nyomán fokozatosan egyre több rendszer állt le a Windows Azure-ben. A hibát földrajzilag sem sikerült elszigetelni, a leállás az adatközpontok között is gyorsan átterjedt, így két amerikai és egy európai központ is leállásokkal nézett szembe. A rendszer kezelőfelülete, a Service Management szolgáltatás szenvedte el a legsúlyosabb kiesést, világszerte elérhetetlenné vált. Ennek megfelelően a tegnapi nap folyamán a windows.azure.com (a kezelőfelület) gyakorlatilag folyamatosan állt, a windowsazure.com pedig hosszabb megszakításokkal élt. A problémát súlyosbította, hogy ez utóbbi rendszer szolgálja ki a Dashboardot, ahol a Microsoft az Azure műszaki problémáival kapcsolatos friss információkat közölte, a leállás nyomán pedig ehhez sem lehetett hozzáférni.

A Microsoft első tájékoztatásaival ellentétben nem csupán a menedzsmentfelület dőlt be, hanem a felhőben futó alkalmazások is szenvedtek kieséseket - a felhasználó szervezetek egymás után jelentették be, hogy alkalmazásaik elérhetetlenné váltak. A Microsoft később pontosította tájékoztatását és értesítette a felhasználókat, hogy egyes adatközpontokban leállt az SQL Azure Data Sync, SQL Azure Management Portal, a Service Bus és az Access Control szolgáltatás is, a kívülről érkező kapcsolatok pedig számos szolgáltatást nem értek el.. A cég máig fenntartja, hogy a tárolórendszerek működésében nem volt fennakadás, így adatvesztéssel biztosan nem kell számolni.

Bill Laing, a Microsoft szerverekért és felhős rendszerekért felelős alelnöke ma rövid blogposztban részletezte a leállás körülményeit. Eszerint az üzemeltető részleg tegnap (magyarországi idő szerint) éjfél után vette észre, hogy több régióban problémák keletkeztek az Azure működésében. A csapat gyorsan felmérte a problémát, amelyet egy szoftverhiba okozott. A gyorsjavítás hamar elkészült, ennek tesztelése azonban reggelig húzódott, fokozatos telepítése pedig további hosszú órákat vett igénybe. A poszt szerint a hiba felmérésétől a javítás széleskörű telepítéséig több mint 21 óra telt el, a rendszer egyes részei pedig továbbra sem működnek, ami továbbra is elérhetetlen alkalmazásokat jelent egyes felhasználóknak.

A leállás pontos részleteivel és a helyreállítás folytatásáról a Microsoft további tájékoztatást ígért, a már ismert részletek azonban rendkívül rossz színben tüntetik fel a céget. Egyrészt a szökőév egy kiválóan szimulálható körülmény, így a rendszer tesztje során ennek a hibának mindenképp ki kellett volna jönnie. Úgy tűnik azonban, hogy a szoftvert tesztelő automatizált hibakeresők egy elemre biztosan nem terjedtek ki, ez pedig képes volt magával rántani a rendszert. A másik súlyos konklúzió, hogy a hiba megtalálása, a javítás tesztelése és rolloutja felhős mércével mérve túl sok időbe került. Bár a szolgáltatások jelentős része a hiba ellenére is működőképes maradt, ez nem vigasztalja azokat, akiknek elérhetetlenné vált az Azure-ön futó alkalmazása.

Facebook

Mit gondolsz? Mondd el!

Adatvédelmi okokból az adott hír megosztása előtt mindig aktiválnod kell a gombot! Ezzel a megoldással harmadik fél nem tudja nyomon követni a tevékenységedet a HWSW-n, ez pedig közös érdekünk.