:

Szerző: Gálffy Csaba

2013. március 4. 14:59

Ezért állt le újra a Microsoft felhője

Valaki hibázott: téves jelölést kapott a tanúsítványok frissítését tartalmazó javítás, így települt a régiek lejártáig. Az eredmény elérhetetlen tárolórendszer és egy újabb roppant kínos leállás a Microsoft Azure felhős szolgáltatásában.

Február 22-én a Microsoft Azure szolgáltatásában gyakorlatilag egyszerre állt le a tárolórendszerek HTTPS protokollon keresztüli elérése. A hiba javítása csaknem fél napjába került a rendszer üzemeltető csoportnak - a hiba részletes okairól és az elhárítás illetve a megelőzés megfelelő lépéseiről a Microsoft most részletes tájékoztatót adott ki.

A hibát az előzetes tájékoztatásnak megfelelően a tárolók tanúsítványának lejárta okozta, mindhárom, a Blob, a Queue és a Table tárolórendszer tanúsítványa is egyidőben, egymástól néhány percre járt le. A tanúsítvány hiányában az Azure-ön futó alkalmazások nem fértek hozzá a biztonságos protokollon keresztül a saját adataikhoz, ami súlyos leálláshoz vezetett változatos, a rendszer használó alkalmazás esetén. A helyzetet súlyosbította, hogy a háromféle szolgáltatás földrajzi területtől függetlenül ugyanazt a tanúsítványt használta, ezek ráadásul néhány percen belül, kaliforniai idő szerint 12:29 és 12:32 között jártak le, ezzel egy, minden redundanciát megkerülő egységes hibázási pont (single point of failure) került a tárolórendszerbe.

Csődött mondott procedúrák

Az Azure pedig folyamatos beépített védelemmel rendelkezik a hiba elkerülésére. A rendes működés elemként heti rendszerességgel ellenőrzik a kezelt tanúsítványokat, továbbá az üzemeltető csapatnak már 180 nappal a lejárat előtt kiment az értesítő-figyelmeztető email. A csoport ennek megfelelően frissíti a lejáró tanúsítványt a Secret Store-ban és az illetékes szolgáltatás oldalán is. A folyamat minden hónapban több százszor probléma nélkül lezajlik - eddig. A frissített tanúsítványt a megfelelő szolgáltatás jellemzően a soros általános frissítés keretében kapja meg, amelyet a rendszer a tervezett update-ek listájára felvesz.

A folyamat pontosan így zajlott ebben az esetben is, az üzemeltetők megkapták az értesítést, a megfelelő csapat pedig frissítette a Secret Store-ban található tanúsítványt és frissítés keretében beütemezte a szolgáltatások felé is. A csapat azonban (tévesen) nem jelölte meg, hogy a frissítés új tanúsítványt is tartalmaz, így az alacsony prioritást kapott az ütemező rendszerben és a tanúsítvány lejártáig nem is ment ki a szerverekre. A helyzetért részben az értesítő-figyelmeztető rendszer is hibás, a Secret Store-ban található tanúsítvány megújítását követően ugyanis több értesítést a csapat nem kapott január 7 után.

Helyreállás után

A Microsoft igyekszik tanulni a leállásból, így ebben az esetben is tett lépéseket a cég a leállás óta, amelyek garantálják, hogy mégegyszer hasonló hiba biztosan nem okoz ilyen mértékű kiesést. Javult a tanúsítványok monitorozása is, így nem csak a Secret Store-ban, de a végpontokon található tanúsítványok lejártát is figyeli a rendszer és megfelelően figyelmezteti az üzemeltető brigádot. A vállalat szerint a helyreállítási folyamatok megfelelően működtek, de sikerült találni néhány olyan pontot, ahol a folyamat felgyorsítható

Nyerd meg az 5 darab, 1000 eurós Craft konferenciajegy egyikét!

A kétnapos, nemzetközi fejlesztői konferencia apropójából a HWSW kraftie nyereményjátékot indít.

Nyerd meg az 5 darab, 1000 eurós Craft konferenciajegy egyikét! A kétnapos, nemzetközi fejlesztői konferencia apropójából a HWSW kraftie nyereményjátékot indít.

A megelőzés oldalán a Microsoft agresszív lépéseket foganatosított. A jövőben például minden három hónapnál rövidebb érvényességű tanúsítvány incidensnek minősül és szolgáltatást befolyásoló eseményként kezelik és hárítják el, ez az egyik legmagasabb prioritású hibaelhárítási folyamatnak számít. A hiba másik okát, az emberi tévedést automatizálással oldja meg a rendszer, a tanúsítványcserék prioritizálását nem kell többé kézzel állítani. Ezzel összefüggésben az üzemeltetői csapat átnézte a tanúsítványokkal összefüggő összes manuális, emberi teljesítésre váró lépést és minimalizálták ezek számát.

A Microsoft az összes érintett felhasználó számára külön kérés nélkül jóváírja a kiesés miatt keletkezett kötbért. A meghibásodott tárolók miatt kiesést szenvedett partnerek felé a havi díj 25 százalékát jóváírja a Microsoft, nem csak a tárolókra vonatkozóan, hanem a kapcsolódó, szintén érintett szolgáltatásokra nézve, valamint a forgalomarányos díjazásra nézve is. Ennél nagyobb kárt jelent a vállalat számára a presztízsén esett újabb folt. Korábban szintén banális hibán csúszott el az Azure, tavaly februárban a szökőév helyes kezelése fogott ki a tanúsítványkezelő alrendszeren, amely akkor teljes leálláshoz vezetett.

Milyen technológiai és munkaerőpiaci hatások érhetik a backendes szakmát? Május 8-án végre elindul az idei kraftie! meetup-sorozat is (helyszíni vagy online részvétellel).

a címlapról

Hirdetés

Security témákkal folyatódik az AWS hazai online meetup-sorozata!

2024. április 30. 06:48

A sorozat május 28-i, harmadik állomásán az AWS-ben biztonsági megoldásait vesszük nagyító alá. Átnézzük a teljes AWS security portfóliót a konténerbiztonságtól a gépi tanulásos alkalmazások védelmén át, egészen az incidenskezelésig.