Szerző: Gálffy Csaba

2013. augusztus 26. 13:32

A hétvégén megint állt az Amazon felhője

Alapos kivizsgálást ígér az Amazon a vasárnapi leállás ügyében, a hardveres hiba ugyanis nem generált automatikus failovert, így az adatközpont működésében komoly zavar állt be.

Leállt a hétvégén az Amazon egyik legforgalmasabb adatközpontjának működése, az Észak-Virginiában található infrastruktúra mintegy két órán át nem szolgálta ki az ott futó szolgáltatásokat. A leállás számos népszerű online szolgáltatást rántott magával, nem működött egy ideig az Amazonra alapozó Netflix, a Heroku, az Airbnb és az Instagram, és zavart mutatott az IFTTT és a Vine működése is. A szolgáltatások jellemzően azonnal Twittert ragadtak és a felhasználóikat tájékoztatták a hiba okáról.

Az Amazon AWS Health Dashboard szerint az Észak-Virginában található adatközpontban lépett fel zavar a működésben, amely érintette az Elastic Block Store (EBS) tárolószolgáltatást és az Elastic Load Balancing terheléselosztó alrendszert is. A megnövekedett hibaszámot az Amazon nyugati idő szerint 1:22-kor észlelte az EBS esetében, a hibát a cég szerint egy részlegesen meghibásodott hálózati eszköz okozta.

Az események krónikája az Amazon szerint.

A senior horizonton túl: a staff meg a többiek

Senior tapasztalati szint fölött van még pár egzotikus lépcsőfok, illetve a mögöttük rejtőző elvárások.

A senior horizonton túl: a staff meg a többiek Senior tapasztalati szint fölött van még pár egzotikus lépcsőfok, illetve a mögöttük rejtőző elvárások.

A jelentés szerint a futó virtuális gépek elsöprő többsége 3:23-ra normális működést mutatott, a néhány hibás instance-et pedig 5:58-ra sikerült teljesen visszaállítani. Ezzel párhuzamosan az adatközpont Elastic Load Balancing (ELB) alrendszerével is problémák voltak, 1:40-től 6:08-ig néhány terheléselosztó alacsony teljesítménnyel vagy egyáltalán nem működött, ugyanabból az okból, az egyik hálózati eszköz problémás működéséből kifolyólag.

Az Amazon jelentése szerint a hiba gyökere egy részlegesen meghibásodó hálózati eszköz volt, amely bizonyos funkciókat helyesen ellátott, más képességei azonban teljesen leálltak. A redundáns rendszerben az ilyen hardverhibának nem szabadna leálláshoz vezetnie, az automatikus failovert valószínűleg a részlegesen helyes működés akadályozta meg. Az Amazon részletes vizsgálatot ígért, az érintett eszközt alaposan megvizsgálják, hogy a jövőben az ilyen forgatókönyvek teljesen elkerülhetőek legyenek.

Milyen technológiai és munkaerőpiaci hatások érhetik a backendes szakmát? Május 8-án végre elindul az idei kraftie! meetup-sorozat is (helyszíni vagy online részvétellel).

a címlapról