Szerző: Gálffy Csaba

2015. augusztus 25. 14:00:00

Villámcsapásból adatvesztés

Villámcsapás okozott kárt a Google egyik európai adatközpontjában, amely hibák láncolatán keresztül adatvesztéshez vezetett a perzisztens tárolók esetében. Az érintett adatmennyiség viszonylag kicsi, aggasztó azonban, hogy a természetnek sikerült "feltörni" a többszörösen védett rendszert.

Négy villámcsapás érte augusztus 13-án a Google Compute Engine egyik európai adatközpontját, ennek következtében pedig adatvesztéssel kell számolniuk a felhasználóknak. A leírás szerint az elektromos hálózatot ért villámcsapások miatt rövid időre leállt a europe-west-1b áramellátása, mielőtt a generátorok átvették volna a terhelést. Ugyan a tárolók ezekre az esetekre saját UPS egységekkel rendelkeznek, amelyek folyamatos tápellátást biztosítanak, bizonyos rendszerek esetében a hosszan tartó és megismételt áramkimaradás miatt a telepek lemerültek, a tárolók pedig leálltak.

Hogyan lett ebből adatvesztés?

A műszaki post mortem szerint a leállt rendszerek elsöprő többsége sikeresen be tudta fejezni a gyorsítótárban található adatok kiírását a meghajtókra, néhány esetben azonban ez nem sikerült, ilyenkor a volatilis tárolóban lévő adatok elvesztek. A Google becslése szerint az elvesztett adatmennyiség az adatközpont kapacitásának 0,000001 százalékát teszi ki, vagyis 100 megabájtonként egy bájtot. Ez 100 petabájtos kapacitást feltételezve egy gigabájtnyi elvesztett adatot jelent, de nem tudni pontosan, hogy mennyi az adatközpont kapacitása.

Az adatvesztésen túl is akadtak problémák az adatközpontban. A leállt tárolókat a Google mérnökeinek manuálisan kellett újraindítani, majd az adatokat visszaállítani a perzisztens tárolókra - ez is mutatja, hogy a rendszert nem készítették fel ilyen hosszú áramkimaradásra, vagy valamelyik kiegészítő generátor hibásodhatott meg.

Google adatközpont a belgiumi St. Ghislainban - ide csapott a villám. Négyszer.

Machine learning és Scrum alapozó képzések indulnak! (x) A HWSW októberben induló gyakorlatorientált, 10 alkalmas, 30 órás online képzéseire most early bird kedvezménnyel lehet regisztrálni!

A cég elismeri, hogy a részleges leállásért illetve az adatvesztésért felelősség terheli, de figyelmezteti is a felhasználókat, hogy ilyen vagy ennél súlyosabb természeti károk egy-egy adatközpontot teljesen ki is vonhatnak forgalomból. Ezért az üzleti kritikus számítási feladatokat és adatokat érdemes párhuzamosan több adatközpontból is kínálni, redundánsan, így az egyik kiesése (szélsőséges esetben pusztulása) nem okozza az adatok elvesztését vagy a szolgáltatás kiesését. Pontosan emiatt az összes komolyabb szolgáltató több, egymástól távolabb levő adatközpontot üzemeltet régiónként.

Az adatvesztéshez vezető hibák felmérését követően a Google megkezdte azok kijavítását. Az adatközpont a Google egyik legrégebbi telepítése, a szerverekben Sandy Bridge alapú Xeonok dolgoznak, és nem is érhetőek el az újabb generációs, 32 magos instance-ek sem. De nem csak a szerverek, hanem a tárolók is egy előző generációhoz tartoznak, ezeket folyamatosan frissítette a Google frissebb hardverre. Ezek a frissebb egységek kevésbé érzékenyek a hirtelen áramkimaradásra, a cég szerint az adatvesztés kizárólag a korábbi generációs tárolóknál következett be.

a címlapról