:

Szerző: Gálffy Csaba

2014. június 30. 16:18

Ezért állt egy napot az Exchange Online

A dominó-effektus újabb klasszikus esete a múlt heti Exchange Online-leállás. Egy akadozva elérhető directory szerepkörű szerver magával rántotta a partícióját, az pedig egy szoftverhiba nyomán a szélesebb levélkézbesítő rendszert is megakasztotta. A javítás rendkívül sokáig, egy teljes munkanapon át tartott, az amerikai ügyfelek tomboltak.

Múlt héten egy teljes munkanapra leállt az Exchange Online, a Microsoft szolgáltatásként kínált email-rendszere, . A mintegy 9 órás leállás az amerikai keleti parti munkaidő egészére kiterjedt, Európában azonban viszonylag csekély hatása volt az időeltolódás miatt. A Microsoft most rövid bejegyzésben ismertette a hiba okait és azt, hogy a jövőben mit tesznek az ilyen problémák elkerülésére.

Dominó a felhőben

A postmortem (incidens utáni felmérés) szerint az Exchange Online mintegy 9 órás részleges, a kimenő és bejövő emailt egyaránt érintő kiesését egy viszonylag kis hibát követő dominó-effektus okozta. "Az Exchange Onlne esetében az egyik directory szerepkört ellátó szerver akadozása miatt egy directory partíció nem szolgálta ki a hitelesítési kéréseket, emiatt az előfizetők egy kisebb hányada elvesztette a hozzáférést az emailhez" - mondja a poszt. "Az eset egyedi természete miatt a visszaállítás elhúzódott, de a hibát továbbra is csak a felhasználók egy kis hányada tapasztalta" - folytatódik a leírás. "Sajnos a hiba természete miatt egy váratlan probléma akadt a szélesebb email-kézbesítő rendszerben egy korábban ismeretlen kódhiba miatt, ami a felhasználók nagyobb hányada számára okozott késést a levélfolyam kézbesítésében."

A hibakezelés két szinten zajlott, egyrészt a meghibásodott directory partícióról a szakemberek leválasztották az levélkézbesítési rendszert, másrészt az eredeti hiba gyökerét igyekeztek orvosolni és visszaállítani a meghibásodott directory szolgáltatást. Néhány óra alatt mindkét folyamat lezajlott, a hosszas leállást követően pedig minden Exchange-szolgáltatás zavartalanul üzemel.

Az Exchange mellett a Lync azonnali üzenetkezelő rendszer is leállt az előző napon (június 23), egy teljesen különálló incidens nyomán. A poszt szerint a Lync Online leállását a külső, a Microsoft adatközpontját bekötő hálózat hibája okozta. Ezt a hibát gyorsan, mindössze percek alatt elhárították a szakemberek, a helyreállítást követő forgalomcunami azonban elsodorta a szolgáltatást, emiatt egyes felhasználó számára hosszabb időn keresztül is elérhetetlenné vált a rendszer.

Nyerd meg az 5 darab, 1000 eurós Craft konferenciajegy egyikét!

A kétnapos, nemzetközi fejlesztői konferencia apropójából a HWSW kraftie nyereményjátékot indít.

Nyerd meg az 5 darab, 1000 eurós Craft konferenciajegy egyikét! A kétnapos, nemzetközi fejlesztői konferencia apropójából a HWSW kraftie nyereményjátékot indít.

Az Exchange-hiba nyomán derült ki, hogy az Microsoft Service Health Dashboard (SHD), amely a felhős szolgáltatás monitorozásában segít, nem működött megfelelően, több órával a részleges leállást követően is zöld, vagyis minden rendben státuszt mutatott a felhasználóknak. Emiatt egyes felhasználó szervezetek csak jelentős késéssel kaptak értesítést a kiesésről, sokan pedig hosszasan keresték a hibát a saját rendszereikben, dühüket pedig Twitteren illetve a Microsoft fórumain vezették le. A hiba okát a Microsoft mára szintén javította - állítja a bejegyzés.

Lassan beérik

Általánosan megfogalmazható, hogy minél kevésbé triviális egy felhős rendszer leállását okozó hiba, annál érettebb a platform. A Microsoft híres, szökőév hibás kezeléséből fakadó Azure-leállása óta sokat fejlődött a vállalat szoftverplatformja, az érett komponenseket összekötő, viszonylag friss elemek azonban még mindig tartalmaznak hibákat. Az Exchange Online leállása most hosszú ideig szolgáltat muníciót azoknak, akik ellenzik (esetünkben) a céges levelezés kiszervezését a Microsoft felhős rendszerébe. A kritikának van helye, a 9 órás, a teljes munkanapra kiterjedző leállás igen súlyos probléma, amelyre a Microsoftnak megfelelő választ kell találnia. Nem érdemes persze azt sem elfelejteni, hogy a leállás a házon belül üzemeltetett email-szerver esetében sem feltétlenül ritkább, a hibaelhárítás és a szolgáltatás visszaállítása pedig esetenként el is húzódhat.

Milyen technológiai és munkaerőpiaci hatások érhetik a backendes szakmát? Május 8-án végre elindul az idei kraftie! meetup-sorozat is (helyszíni vagy online részvétellel).

a címlapról

Hirdetés

Security témákkal folyatódik az AWS hazai online meetup-sorozata!

2024. április 25. 22:00

A sorozat május 28-i, harmadik állomásán az AWS-ben biztonsági megoldásait vesszük nagyító alá. Átnézzük a teljes AWS security portfóliót a konténerbiztonságtól a gépi tanulásos alkalmazások védelmén át, egészen az incidenskezelésig.