:

Szerző: Dojcsák Dániel

2012. június 22. 14:02

Csúnya leállás volt a Twitternél

2009-et idéző leállást szenvedett el a Twitter, sőt, még azokhoz az időkhöz képest is jelentős kimaradás borzolta a kedélyeket tegnap. A közösség nyilvánvalóan azonnal találgatni kezdett, de a hivatalos nyilatkozat szerint nem hekkerek voltak és nem is a foci EB miatt történt a baj.

Mazen Rawashdeh, a Twitter mérnöki feladatokért felelős alelnöke tegnap sebtiben nyilatkozott a szolgáltatás több mint egyórás leállásával kapcsolatban, de még így sem sikerült elejét vennie a fantáziadús spekulációknak. Legutoljára több órás leállás 2011 októberében volt, igaz akkor amerikai idő szerint éjjel, ami kevésbé volt látványos, mint a mostani csúcsidei kiesés. A Pingdom.com adatai szerint 2007-ben, amire Twitter felhasználóként kevesen emlékezhetnek ennél súlyosabb volt a helyzet, volt olyan hónap, amikor 92 százalékos volt a rendelkezésre állás.

Elég-e a 99,6 százalék?

Jelen állás szerint a Twitter szinte minden hónapban 99 százalék feletti eredményt hoz, átlagosan naponta 23 óra 59 perc 40 másodpercig elérhető, de nyilván a kiesések nem oszlanak el egyenletesen minden napra. A Twitter legnagyobb ereje az aktualitás, így a legnagyobb rizikó a rendszer elérhetetlensége, leállása és lassulása, bármikor történjen is az. A hirdetők és a kampányokat ide tervezők számára pedig mind a mai napig rizikónak számít a Twitter, hiszen gyakran előfordulnak leállások, és kellemetlen, ha az éppen egy adott kampány aktív időszakában történik. (Például, ha egy TV-műsor erre építene éles elemeket, akkor kínos lenne, ha az adás alatt feküdne meg a Twitter)

A tegnapi kieséssel kapcsolatban az UGNazi hekkercsoport azt állította, hogy ők támadták meg a szolgáltatót DDoS módszerrel, de egyesek szerint az animált GIF avatarok miatt volt, megint mások szerint pedig az Euro 2012 futball EB miatti hirtelen forgalmat nem bírta a hálózat. Rawashdeh viszont azonnal cáfolta mindegyik elméletet, s beismerte, hogy a Twitter fejlesztői hibáztak, egy olyan bug került egy frissítéssel az éles verzióba, ami elérhetetlenné tette a felületet minden felhasználónak.

A PDT (USA, nyugati part) időzóna szerint reggel 9 órakor (nálunk éjfél) a Twitter üzemeltetői azt vették észre, hogy a szolgáltatás egyetlen webes felhasználó számára sem elérhető, illetve a mobilos kliensek sem kapnak friss üzeneteket. A mérnökök azonnal nekiláttak megtalálni, majd kijavítani a hibát. 1,5 órával később rövid időre sikerült is életet lehelni a rendszerbe, de ezt egy újabb fél órás leállás követte.

Cascading-bug

A hiba egy úgynevezett “cascading bug” volt, ami azt jelenti, hogy a szorosan egymáshoz kapcsolt rendszerek közül az egyik meghibásodása miatt sorra, dominóként dőlt be a többi is. Ehhez hasonlót produkált egyszer a Google Gmail szolgáltatása is, ahol az egyik karbantartás alatt lévő szerver túlterhelés hibát jelzett a vele kapcsolatban álló többi szervernek, azok átvették az üzenetet, majd azok is ugyanezt kezdték kommunikálni és negyed óra alatt leállt az egész világon a Gmail-szolgáltatás.

A Twitter esetében is hasonló dolog történt, az egyik alrendszer frissítése tartalmazott egy hibát, ami miatt összeomlott a teljes platform. A kellemetlen ezzel kapcsolatban az, hogy maga az eredeti hiba nem érintett volna jelentős számú felhasználót, sőt, valószínűleg nem is vette volna észre senki. A dominó-hatás miatt viszont minden egyes felhasználó, aki az adott időszakban használta volna a szolgáltatást, szembesült a problémával. Akik közvetlenül a Twitter.com oldalon léptek be, azok egyáltalán nem láttak tartalmat, akik valamilyen kliensen keresztül, azok pedig nem kaptak újakat, csak a már korábban letöltött üzeneteket láthatták. Ez utóbbi talán csökkenti a bajt, hiszen a legtöbben úgy élhették meg, hogy nem frissít a Twitter és maximum a hírekből később tudták meg, hogy ennél nagyobb volt a baj.

Visszaálltak a régi, jól működő verzióra

A hiba azonosítása utána mérnökök természetesen visszaállították a korábbi, jól működő szoftververziót a hibás rendszeren, és utána már csak újra kellett éleszteni a mikroblog szolgáltatást. A két órás kiesés azonban egy újabb komoly arcvesztés a szolgáltatónak, aki immár nem védekezhet azzal, hogy fiatal startup és a hirtelen növekedést nehéz lekövetni szerverek és szoftverek szintjén. Az öndefiníció szerint a Twitter az a kritikus kommunikációs- és hírplatform, ami összeköti és közel hozza az embereket egymással és az általuk fontosnak tartott személyekkel és eseményekkel. Ha viszont gyakori a nagy terhelések idején a leállás és még ezen felül mérnöki hibák következtében is előfordulhat két órás kiesés, az a hirdetők és a felhasználók szempontjából komoly bizalomvesztést jelent.

Nyerd meg az 5 darab, 1000 eurós Craft konferenciajegy egyikét!

A kétnapos, nemzetközi fejlesztői konferencia apropójából a HWSW kraftie nyereményjátékot indít.

Nyerd meg az 5 darab, 1000 eurós Craft konferenciajegy egyikét! A kétnapos, nemzetközi fejlesztői konferencia apropójából a HWSW kraftie nyereményjátékot indít.

A leállás a körülötte kialakult amerikai és brit médiavisszhang egy nagyon érdekes képet rajzol fel. Az amerikai és brit közvélemény számára pontosan ugyanolyan problémaként jelent meg a Twitter leállása, mint amilyen reakciókat Magyarországon a valamelyik mobilhálózat kiesése jelentett. Nagyon sokan elégedetlenkedtek amiatt, hogy a munkájukhoz fontos kommunikációs felület lassította a napjukat.

A felhasználók úgy tekintenek a Twitterre és valószínűleg több más webes, közösségi kommunikációs eszközre, mint kritikus rendszerre. Az elvárások ugyanazok, mint az elektromos és egyéb közmű hálózatokkal vagy a mobil- és vezetékes internet és telefon vonalakkal szemben. Ha valaki kételkedett volna abban, hogy a Twitter, Facebook, Google közművek, csak fussa át az esettel kapcsolatos ezernyi médiamegejelenést. Ugyanakkor a Twitter védelmében fontos elmondani azt is, hogy áprilisban például egy másodpercet sem állt a szolgáltató és igen sok olyan hónap van, amikor 99,9 százalék felett vannak.

Milyen technológiai és munkaerőpiaci hatások érhetik a backendes szakmát? Május 8-án végre elindul az idei kraftie! meetup-sorozat is (helyszíni vagy online részvétellel).

a címlapról

Hirdetés

Security témákkal folyatódik az AWS hazai online meetup-sorozata!

2024. április 25. 15:42

A sorozat május 28-i, harmadik állomásán az AWS-ben biztonsági megoldásait vesszük nagyító alá. Átnézzük a teljes AWS security portfóliót a konténerbiztonságtól a gépi tanulásos alkalmazások védelmén át, egészen az incidenskezelésig.