Szerző: Bodnár Ádám

2010. október 14. 11:15

Nyílt szoftvereken alapuló adattárházgép az EMC-től

A EMC is beszáll az adattárház-üzletbe, a vállalat bemutatta Greenplum Data Computing Appliance névre hallgató integrált rendszerét, amellyel az Oracle Exadata és az IBM Netezza ellen. A vállalat még júliusban vette meg az adattárház-szoftvert fejlesztő Greenplum céget, ennek az akvizíciónak az első gyümölcse érett be most.

Az üzleti intelligencia néhány év alatt a modern vállalatirányítás kulcselemévé vált, ahogyan az egyre duzzadó adathalmazokból a vezetőknek, döntéshozóknak értelmes, értékes információkat kell kinyerniük, és a szervezet teljesítményét nyomon követniük.

Az adattárházak piacát korábban olyan cégek uralták, amelyek a külvilág számára teljesen zárt rendszereket építettek, saját fejlesztésű szoftverek és célhardverek integrációjával. Erre a piacra tört be két évvel ezelőtt az Exadatával az Oracle, a vállalat közönséges HP ProLiant szervereket állított csatasorba, amelyeket saját fejlesztésű szoftverrel hajtott meg Az Exadatának egy éve érkezett meg a második verziója, amely már Sun hardvereken alapult, és néhány okos fejlesztésnek (pl. Infiniband és SSD-k használata) jelentős előrelépést képviselt teljesítményben. Az Oracle szerint az Exadata V2 akár online tranzakciókezelésre is megfelelő sebességet biztosít.

PostgreSQL, Red Hat Linux, kommersz hardver

Hasonló elgondolás mentén épül fel az EMC Greenplum Data Computing Appliance, amely tömeghardverekre és saját szoftver kombinációja. Jelentős különbség azonban az Oracle megközelítéséhez képest, hogy a Greenplum által fejlesztett adatbányászati és üzleti intelligencia platform alapjait nyílt forrású szoftverek adják. A Greenplum Database a nyílt forrású PostgreSQL adatbázis továbbfejlesztésével jött létre, a szoftvert futtató Intel Xeon-alapú szervereken pedig Red Hat Enterprise Linux 5.5 az operációs rendszer.

A Greenplum Database ún. "shared nothing" MPP architektúrát valósít meg, az adatokat a csomópontok elosztva tárolják. Ennek a megközelítésnek az előnye a közel lineáris skálázódás, vagyis további csomópontok hozzáadásával a kapacitás és a teljesítmény hatékonyan növelhető, a shared-nothing architektúra hátránya ugyanakkor a viszonylag nagy válaszidő, de hatalmas adatbázisokon végzett komplex lekérdezések esetén ez tolerálható. Shared nothing architektúrát valósítanak meg egyébként a Google szerverei, amelyek a webkereséseket szolgálják ki, illetve a Teradata adattárház-gépek is.

Az EMC két gépet dobott piacra, a Daca Computing GP100 és GP1000 modelleket, előbbiben 8, utóbbiban 16 szerver tárolja és dolgozza fel az adatokat és hajtja végre a lekérdezéseket. A Greenplum terminológiában "Segment Servernek" nevezett gépeket egy "Master Server" vezérli, amely a nagyobb biztonság és rendelkezésre állás érdekében meg van kettőzve, de a második gép csak "stand-by", vagyis kiesés esetén veszi át az elsődleges Master Server szerepét. A Master Server fogadja a felhasználóktól a lekérdezéseket (SQL, MapReduce, stb) és osztja ki azok végrehajtását a Segment Serverek felé, majd prezentálja az eredményeket.

Nagy pénz, nagy szívás: útravaló csúcstámadó IT-soknak

Az informatikai vezetősködés sokak álma, de az árnyoldalaival kevesen vannak tisztában.

Nagy pénz, nagy szívás: útravaló csúcstámadó IT-soknak Az informatikai vezetősködés sokak álma, de az árnyoldalaival kevesen vannak tisztában.

A tranzakciós logok replikálásával a másodlagos szerver folyamatosan szinkronban van tartva, a Segment Serverek adatai pedig egymásra vannak tükrözve. Egy Segment Server tükre mindig egy másik alhálózaton található szerverre kerül, a két példány fájl blokkreplikálással van szinkronban tartva. így ha egy diszk vagy gép kiesik, a teljes rendszer továbbra is működőképes marad. Hiba esetén a Master Server automatikusan a problémás Segment Server tükrét kezdi használni, a javítás után pedig a visszatérés üzemi állapotba működés közben is támogatott, a kiesés óta végzett változtatások visszareplikálásával.

A Greenplum adattárház-gépbe épített szerverekben egyenként 2 darab hatmagos Intel Xeon processzor található 48 gigabájt memória társaságában. A Master Serverekben hat darab 600 gigabájtos, 10 ezer fordulaton pörgő SAS diszk dolgozik, a Segment Serverekben 12 darab merevlemez található (két RAID 5 tömbben), amelyek 15 ezres fordulaton járnak. A szervereket 10 gigabites Ethernet interfész kapcsolja össze, amelyen a Greenplum saját fejlesztésű gNet protokollja biztosítja az adatáramlást. A cég szerint a gNet akár több tízezer szerverig skálázódik. A Greenplum Data Computing Architecture felépítéséről bővebben az EMC oldalán lehet olvasni.

Akár a szoftver is

Az EMC a GP100 és GP1000 rendszereket előre összeszerelve, installálva, konfigurálva szállítja, valamint a helyszínen üzembe is helyezi, az ügyfélnek már csak használatba kell vennie. Az EMC rendszerén futó Greenplum szoftver legújabb 4.0 verziója továbbra is elérhető önállóan, vagyis ha valaki nem az EMC-től szeretné a komplett rendszert megvásárolni, megkaphatja külön a szoftvert, amely Red Hat Enterprise Linux, SUSE Linux Enterprise Server, CentOS Linux, valamint Sun Solaris operációs rendszereken futtatható.

Nagyon széles az a skála, amin az állásinterjú visszajelzések tartalmi minősége mozog: túl rövid, túl hosszú, semmitmondó, értelmetlen vagy semmi. A friss heti kraftie hírlevélben ezt jártuk körül. Ha tetszett a cikk, iratkozz fel, és minden héten elküldjük emailben a legfrissebbet!

a címlapról