Szerző: Gálffy Csaba

2015. augusztus 25. 14:00

Villámcsapásból adatvesztés

Villámcsapás okozott kárt a Google egyik európai adatközpontjában, amely hibák láncolatán keresztül adatvesztéshez vezetett a perzisztens tárolók esetében. Az érintett adatmennyiség viszonylag kicsi, aggasztó azonban, hogy a természetnek sikerült "feltörni" a többszörösen védett rendszert.

Négy villámcsapás érte augusztus 13-án a Google Compute Engine egyik európai adatközpontját, ennek következtében pedig adatvesztéssel kell számolniuk a felhasználóknak. A leírás szerint az elektromos hálózatot ért villámcsapások miatt rövid időre leállt a europe-west-1b áramellátása, mielőtt a generátorok átvették volna a terhelést. Ugyan a tárolók ezekre az esetekre saját UPS egységekkel rendelkeznek, amelyek folyamatos tápellátást biztosítanak, bizonyos rendszerek esetében a hosszan tartó és megismételt áramkimaradás miatt a telepek lemerültek, a tárolók pedig leálltak.

Hogyan lett ebből adatvesztés?

A műszaki post mortem szerint a leállt rendszerek elsöprő többsége sikeresen be tudta fejezni a gyorsítótárban található adatok kiírását a meghajtókra, néhány esetben azonban ez nem sikerült, ilyenkor a volatilis tárolóban lévő adatok elvesztek. A Google becslése szerint az elvesztett adatmennyiség az adatközpont kapacitásának 0,000001 százalékát teszi ki, vagyis 100 megabájtonként egy bájtot. Ez 100 petabájtos kapacitást feltételezve egy gigabájtnyi elvesztett adatot jelent, de nem tudni pontosan, hogy mennyi az adatközpont kapacitása.

Az adatvesztésen túl is akadtak problémák az adatközpontban. A leállt tárolókat a Google mérnökeinek manuálisan kellett újraindítani, majd az adatokat visszaállítani a perzisztens tárolókra - ez is mutatja, hogy a rendszert nem készítették fel ilyen hosszú áramkimaradásra, vagy valamelyik kiegészítő generátor hibásodhatott meg.

Google adatközpont a belgiumi St. Ghislainban - ide csapott a villám. Négyszer.

Színfalak mögött: így épül egy szoftverfejlesztő iroda

Betekintést nyújtunk olyan folyamatokba, melyek sokszor teljesen láthatatlanok a munkavállalók számára.

Színfalak mögött: így épül egy szoftverfejlesztő iroda Betekintést nyújtunk olyan folyamatokba, melyek sokszor teljesen láthatatlanok a munkavállalók számára.

A cég elismeri, hogy a részleges leállásért illetve az adatvesztésért felelősség terheli, de figyelmezteti is a felhasználókat, hogy ilyen vagy ennél súlyosabb természeti károk egy-egy adatközpontot teljesen ki is vonhatnak forgalomból. Ezért az üzleti kritikus számítási feladatokat és adatokat érdemes párhuzamosan több adatközpontból is kínálni, redundánsan, így az egyik kiesése (szélsőséges esetben pusztulása) nem okozza az adatok elvesztését vagy a szolgáltatás kiesését. Pontosan emiatt az összes komolyabb szolgáltató több, egymástól távolabb levő adatközpontot üzemeltet régiónként.

Az adatvesztéshez vezető hibák felmérését követően a Google megkezdte azok kijavítását. Az adatközpont a Google egyik legrégebbi telepítése, a szerverekben Sandy Bridge alapú Xeonok dolgoznak, és nem is érhetőek el az újabb generációs, 32 magos instance-ek sem. De nem csak a szerverek, hanem a tárolók is egy előző generációhoz tartoznak, ezeket folyamatosan frissítette a Google frissebb hardverre. Ezek a frissebb egységek kevésbé érzékenyek a hirtelen áramkimaradásra, a cég szerint az adatvesztés kizárólag a korábbi generációs tárolóknál következett be.

A kraftie a HWSW IT-karrierrel foglalkozó, immár sok tízezer IT szakembert mozgató meetup- és podcast-sorozata. Mostantól pedig már egy hírlevél is! Iratkozz fel Te is, ha szeretnél heti egyszer egy rövid, de értékes karrierfókuszú tartalmat kapni.

a címlapról