Szerző: Gálffy Csaba

2013. augusztus 26. 13:32

A hétvégén megint állt az Amazon felhője

Alapos kivizsgálást ígér az Amazon a vasárnapi leállás ügyében, a hardveres hiba ugyanis nem generált automatikus failovert, így az adatközpont működésében komoly zavar állt be.

Leállt a hétvégén az Amazon egyik legforgalmasabb adatközpontjának működése, az Észak-Virginiában található infrastruktúra mintegy két órán át nem szolgálta ki az ott futó szolgáltatásokat. A leállás számos népszerű online szolgáltatást rántott magával, nem működött egy ideig az Amazonra alapozó Netflix, a Heroku, az Airbnb és az Instagram, és zavart mutatott az IFTTT és a Vine működése is. A szolgáltatások jellemzően azonnal Twittert ragadtak és a felhasználóikat tájékoztatták a hiba okáról.

Az Amazon AWS Health Dashboard szerint az Észak-Virginában található adatközpontban lépett fel zavar a működésben, amely érintette az Elastic Block Store (EBS) tárolószolgáltatást és az Elastic Load Balancing terheléselosztó alrendszert is. A megnövekedett hibaszámot az Amazon nyugati idő szerint 1:22-kor észlelte az EBS esetében, a hibát a cég szerint egy részlegesen meghibásodott hálózati eszköz okozta.

Az események krónikája az Amazon szerint.

Nagy pénz, nagy szívás: útravaló csúcstámadó IT-soknak

Az informatikai vezetősködés sokak álma, de az árnyoldalaival kevesen vannak tisztában.

Nagy pénz, nagy szívás: útravaló csúcstámadó IT-soknak Az informatikai vezetősködés sokak álma, de az árnyoldalaival kevesen vannak tisztában.

A jelentés szerint a futó virtuális gépek elsöprő többsége 3:23-ra normális működést mutatott, a néhány hibás instance-et pedig 5:58-ra sikerült teljesen visszaállítani. Ezzel párhuzamosan az adatközpont Elastic Load Balancing (ELB) alrendszerével is problémák voltak, 1:40-től 6:08-ig néhány terheléselosztó alacsony teljesítménnyel vagy egyáltalán nem működött, ugyanabból az okból, az egyik hálózati eszköz problémás működéséből kifolyólag.

Az Amazon jelentése szerint a hiba gyökere egy részlegesen meghibásodó hálózati eszköz volt, amely bizonyos funkciókat helyesen ellátott, más képességei azonban teljesen leálltak. A redundáns rendszerben az ilyen hardverhibának nem szabadna leálláshoz vezetnie, az automatikus failovert valószínűleg a részlegesen helyes működés akadályozta meg. Az Amazon részletes vizsgálatot ígért, az érintett eszközt alaposan megvizsgálják, hogy a jövőben az ilyen forgatókönyvek teljesen elkerülhetőek legyenek.

Nagyon széles az a skála, amin az állásinterjú visszajelzések tartalmi minősége mozog: túl rövid, túl hosszú, semmitmondó, értelmetlen vagy semmi. A friss heti kraftie hírlevélben ezt jártuk körül. Ha tetszett a cikk, iratkozz fel, és minden héten elküldjük emailben a legfrissebbet!

a címlapról