Szerző: Gálffy Csaba

2013. március 25. 12:07:00

Háromszor is leállt a Google Drive a múlt héten

Két, egymástól független szoftverhiba miatt háromszor, hétfőn, kedden és csütörtökön is akadozott a Google Drive szolgáltatása. A harmadik, hosszabb részleges kiesés ráadásul órákig tartott, mostanra azonban az összes hibát sikerült kijavítani.

Súlyos kiesések voltak a Google Drive és a hozzá kapcsolódó szolgáltatások működésében az elmúlt héten. A Drive-on hétfőn és kedden (magyarországi idő szerint) éjfél körül is fennakadások voltak, amelyek a felhasználói kör egyharmadát érintették, ezt tetézte a csütörtöki, majdnem 12 órán át tartó üzemzavar. A kiesések folyamán a felhasználók egy része számára akadozott a szolgáltatás, a Drive webes interfésze időtúllépést mutatott vagy csak részlegesen töltődött be. A hibák nem érintették a dokumentumok elérését, amennyiben azokhoz közvetlen linkkel el tudott a felhasználó jutni.

Egymást erősítő hibák

A problémát a Google hálózati szoftverében található hiba okozta, amely miatt a belső hálózat egy része működésképtelenné vált. Az új hiba egy tervezett részleges leállás során jött elő és megbénította a Google belső, adatközponti hálózatának egy szeletét. A tervezett viselkedésnek megfelelően a forgalom másodpercek alatt átterelődött a hiba által nem érintett infrastruktúrára, erősen leterhelve azt. A Google szerint kritikus túlterhelés nem lépett fel, csak helyenként megnövekedett válaszidővel kellett számolni - tehát a rendszer működésében nem lett volna zavar.

A magas válaszidőket azonban a Drive sessionkezelője a tervezett viselkedéstől eltérően nem tolerálta, hanem nagy számban bontotta időtúllépés miatt a lassú kapcsolatokat. Ezzel pedig a felhasználók egy része számára részben vagy egészen elérhetetlenné vált a rendszer. A Google szolgáltatásai jellemzően nagy hibatűrést mutatnak a felhasználói oldalon jelentkező problémás hálózati kapcsolatra, a belső hálózat hibája azonban kifogott a rendszeren.

Ígérik, ezután jobb lesz

A Google a hibát követően megkezdte a hibás hálózati vezérlő kijavítását és a terheléselosztó rendszert is alaposan áttervezik, hogy a jövőben a kiesés miatt megnövekedő terhelést jobban tudja kezelni, ennek keretében tartalék eszközökkel jóval a tervezhető csúcsterhelés fölötti forgalmat is megfelelően el tudják látni. A szoftvercég ígérete szerint ugyanilyen figyelemben részesül a Drive szessziókezelője is, a rendszer sokkal erősebb hibatűrést kap a kapcsolati hibákat és a magasabb válaszidőket tekintve. A Drive oldalán a figyelmeztető és ellenőrző alrendszer is fejlesztést kap, így könnyebben felderíthetőek lesznek az ehhez hasonló problémák.

Machine learning és Scrum alapozó képzések indulnak! (x) A HWSW októberben induló gyakorlatorientált, 10 alkalmas, 30 órás online képzéseire most early bird kedvezménnyel lehet regisztrálni!

A Google Apps Status Dashboard szerint az első incidens mintegy három órán keresztül tartott, a második, azonos okok miatti kiesést már 35 perc alatt sikerült feloldani. Mindez azonban csak előkészítés volt a csütörtöki, mintegy 12 órán keresztül tartó masszív kieséshez, magyarországi idő szerint 21-én délután fél háromtól hajnali háromnegyed egyig tartott a szolgáltatás teljeskörű visszaállítása. A csütörtöki kiesést a HWSW is tapasztalta, a Drive felülete nem töltődött be többszöri próbálkozásra sem, ennek hiányában pedig az alkalmazások megnyitása is lehetetlenné vált.

Helyben sem jobb

A szoftverszolgáltatások (SaaS - software as a service) kiesései rendszeresen szerepelnek a hírekben, mivel egyszerre akár több millió vagy több tízmillió felhasználót is érinthet egy-egy üzemzavar. Ezzel szemben a belső céges rendszerek leállása jóval kevesebb publicitást kap, és hacsak nem érint külső ügyfeleket, általában semmilyen kívülről látható jelentés nem is készül róla. Ennek fényében kialakulóban van egy nézet, miszerint a felhős rendszerek kevésbé megbízhatóbbak lennének - ez azonban jobbára a hírértékből származó torzulás eredménye.

a címlapról