Szerző: HIRDETÉS

2012. január 24. 10:37

Ideje a deduplikáció új hullámáról beszélni!

Az előző évtized második felében jelentek meg a piacon az első adatdeduplikációs megoldások, amelyek célja a szervezetek által tárolt redundáns adatok kiszűrésével a mentésükhöz, tárolásukhoz szükséges tárkapacitás és az átvitelükhöz szükséges sávszélesség csökkentése volt.

Az első lépések

Az adatdeduplikáció megszületéséhez az a felismerés vezetett, hogy adatmentésnél tetemes mennyiségű redundáns információt tárolnak el a cégek, még akkor is, ha inkrementális mentésről van szó. A feleslegesen tárolt adatok törlése révén kisebb diszk- vagy szalagkapacitás is elegendő az adatok tárolására, ezáltal kisebb beruházás is elegendő lehet, illetve fix kapacitás esetén több mentés őrizhető meg. A deduplikáció révén maga a mentés is gyorsabban lefut, így a szervezetek a növekedő adatmennyiség ellenére beleférhetnek a mentési ablakba.

A deduplikáció segítségével tehát látványosan csökkenthető a ténylegesen mentett adatok mennyisége: a vállalat összes dolgozójának postafiókjában megtalálható vezetői levelet fizikailag csak egyszer tárolja a rendszer, mint ahogy azt a sok változatban megőrzött prezentációt is, amelynek mindig csak ugyanazt az oldalát módosítottuk. A deduplikáció azonban nem csak dokumentumok mentésénél lehet hasznos, hanem például hatalmas, de lassan változó adatbázisok (pl. ügyféladatok) hatékony tárolásánál is. Tipikusan jól deduplikálható adatot jelentenek továbbá az azonos operációs rendszert futtató  virtuális gépek lemezképei is.

Az első generációs deduplikációs megoldások az előző évtized második felében jelentek meg a piacon, jobbára egy-egy célberendezés formájában, amely a gyártótól függően lehetett mentőszoftver, deduplikációs gateway appliance vagy tároló, maga a deduplikálás pedig történhetett "on the fly", vagyis folyamatosan vagy pedig az adatok eltárolása után. A deduplikációs algoritmusok és megoldások inkompatibiitása miatt azonban az eltérő termékekkel az infrastruktúra különböző pontjain végzett deduplikáció heterogén tárolósilók létrejöttét eredményezte, ami újabb fejfájást okozott az IT-üzemeltetőknek.

Az első generációs megoldások problémája volt még az irreálisan nagy teljesítményveszteség, nem volt ritka, hogy 30-35 százalékos helymegtakarításért 50 százalékra csökkenő teljesítménnyel kellett fizetni. A gyártók a deduplikációs megoldások fejlesztése során a mentési, feldolgozási sebességre koncentráltak elsősorban, miközben elhanyagolták a visszatöltési teljesítményt, márpedig egy katasztrófa után, amikor az üzletmenet folytonosságát biztosító adatokat mentésből kell visszaállítani, ez ugyanolyan fontos - ha nem fontosabb mint a mentési, írási tempó.

Deduplikáció 2.0

Szpisják Tibor, a HP adattárolási üzletágának termékmenedzsere szerint itt az ideje, hogy a deduplikáció második hullámáról beszéljünk. A HP által bemutatott StoreOnce deduplikációs architektúra azokat a problémákat hivatott kiküszöbölni, amelyek az első generációs deduplikációs megoldásokkal kapcsolatban a leginkább felmerültek: a jelszavak modularitás, skálázhatóság, nagy olvasási, visszaállítási teljesítmény.

A StoreOnce valójában egy algoritmus, amelyet a HP több termékében is implementáltak, köztük a Data Protector mentőszoftverben és a B6200 disk-to-disk (D2D) mentőegységben. A közös algoritmus lehetővé teszi, hogy a deduplikált mentéseket a vállalatok "kitömörítés" nélkül mozgathassák az infrastruktúrájukon, akár a telephelyeket összekapcsoló lassabb hálózatokon és ott tömörítsék ki és hasznosítsák, ahol erre tényleg szükségük van. Az algoritmus fejlesztése során a cél a legjobb deduplikációs arány és teljesítmény egyensúlyának megtalálása volt. A StoreOnce 4 kilobájtos átlagos méretű szeletekkel dolgozik, vagyis a backup adatfolyamot ekkora darabokra osztja szét és ezeknek a daraboknak az egyediségét ellenőrzi. Ténylegesen csak azok az adatok kerülnek mentésre, amelyek hash-e még nem szerepel az indexben, azaz újak.

A StoreOnce algoritmust használó, 2011 őszén bemutatott B6200 disk-to-disk ("D2D") mentőegység egy magas rendelkezésre állású, moduláris, skálázható eszköz, amelynek kapacitása 48 terabájttól akár 768 terabájtig bővíthető, maximális mentési sebessége pedig 28 terabájt óránként - ezt a tempót az adatok kitömörítésekor és visszaállításakor is tartani tudja. Az eszközt már több hazai ügyfél is teszteli.

Mára a deduplikáció körüli felhajtás lecsillapodott, ahogy a tárolópiac újabb hívószavakat és technológiákat termelt ki, ugyanakkor a deduplikáció egyáltalán nem vesztette el a piaci jelentőségét. Magyarországon az új technológiák néhány éves késéssel jelennek meg, ez nincs másképp a deduplikáció esetében sem, ami hazánkba mostanában gyűrűzik be. A felhasználást leginkább az emberhiány hajtja, mondta Szpisják Tibor: az informatikai szervezetek létszáma a válság hatására változatlan vagy inkább csökken, eközben a rájuk bízott feladatok sokasodnak. A B6200 mellett már nem kell éjszakázni, a jobokat figyelni és újraindítani, ezért üzemeltetői emberórát lehet vele megtakarítani.

[A HP Magyarország megbízásából készített anyag.]

Nagyon széles az a skála, amin az állásinterjú visszajelzések tartalmi minősége mozog: túl rövid, túl hosszú, semmitmondó, értelmetlen vagy semmi. A friss heti kraftie hírlevélben ezt jártuk körül. Ha tetszett a cikk, iratkozz fel, és minden héten elküldjük emailben a legfrissebbet!

a címlapról