Szerző: Gálffy Csaba

2012. október 27. 14:58

Leállás a Google platformszolgáltatásában is

Közzétette a pénteki App Engine leállás egyes részleteit a Google. A nyugati parti adatközponttól induló leállás fokozatosan globálissá vált, a szolgáltatás csak hét óra múltán állt helyre. A cég levonja a tanulságokat, a rendszereket jobban függetleníti egymástól a jövőben.

Súlyos hálózati zavar bénította meg a Google platformszolgáltatását amerikai idő szerint péntek hajnalban - jelentette be a cég. A terheléselosztó rendszerek kapacitása az egyik adatközpontban szűknek bizonyult, és láncreakció-szerűen fokozatosan globális méretűvé terjedt a probléma. A probléma elharapódzásában az üzemeltető csapat hibás döntései is szerepet játszottak, a Google szerint tanult a hibából.

Adatvesztés nincs de bejövő kapcsolat sincs

Az App Engine platformján futó alkalmazások zavartalanul üzemeltek a leállás idején, tehát a futásuk nem szakadt meg, a hálózati kapcsolatban azonban súlyos zavarok álltak be. Az alkalmazások fokozatosan egyre nagyobb késleltetéssel találkoztak a hálózati kapcsolatban, majd a kapcsolatok egy része időtúllépés miatt meg is szakadt. A Google statisztikái szerint a kívülről érkező kérések mintegy 50 százaléka nem érte el a futó alkalmazásokat. Az esettel kapcsolatban a Google sajnálkozását fejezte ki. "Az App Engine-nek nem szabadna leállnia, és mérnökeink keményen dolgoznak azon, hogy ne is álljon le" - áll a platformszolgáltatás blogján közzétett posztban. A Google szerint ilyen szintű leállásra eddig még nem került sor, elnézést kérnek mind a leállás hossza, mind súlyossága miatt.

Az leállás krónikája szerint a hiba első jelei helyi idő szerint hajnali 4 óra körül jelentkeztek az egyik nyugati parti adatközpontban, a terheléselosztók (traffic routerek) egy részén megnövekedett a forgalom. A terhelés 6:10-re érte el a veszélyesnek nyilvánított szintet, ennek megfelelően 6:30-ra a Google az elosztók globális újraindítása mellett döntött. Egy órával később az újraindítás nyomán váratlanul a működő terheléselosztók száma a kritikus szint alá csökken. Emiatt a még működő elosztók túlterhelődnek, a kiesés globális szintűvé válik. Egy újabb óra múlva, 8:28 körül a Google kiküldte a hivatalos értesítést a levelezőlistán az incidensről és arról, hogy aktívan dolgozik a hiba elhárításán. 11:10-re az üzemeltető mérnökök rájöttek, hogy az elosztók dominószerűen omlanak össze (cascading failure) újraindulás után is. Az egyetlen megoldás az elosztók egyszerre történő globális újraindítása volt, a terhelés fokozatos ráengedésével. Ez a folyamat 11:45-re fejeződött be, ezután a szolgáltatás hibamentesen üzemelt.

Tanultunk belőle

A Google a hiba jövőbeni elkerüléséhez megnöveli a terheléselosztók kapacitását, a rendszer konfigurációját pedig úgy módosította, hogy a rendszerszintű összeomlás kockázatát csökkentse. A leállás nyomán pedig több hosszabb távú projekt is indult, amelyek célja tovább növelni a terheléselosztók kapacitását és csökkenteni annak esélyét, hogy összefüggő rendszerek magukkal rántsák a többit.

A Google sietett megjegyezni, hogy a leállás során adatvesztés nem lépett fel, és az alkalmazások teljes funkcionalitása helyreállt az üzemeltetői beavatkozás nélkül is. Továbbá a Google szerint a leállás semmilyen tennivalót nem jelent a fejlesztők számára, sem konfigurációs, sem programozási módosításra nincs szükség az alkalmazások oldalán.

Az App Engine SLA, vagyis a szolgáltatás minőségére vonatkozó garancia értelmében a Google minden fizetős kliensnek jóvá írja a megfelelő összeget a havi számláján, ez a havidíj 10 százalékának megfelelő kötbért jelent, ezt a novemberi számla összegéből vonja le majd a rendszer. A levonásra proaktív módon sor kerül, a felhasználóknak ezt külön nem kell kérvényezniük.

a címlapról