Szerző: Bodnár Ádám

2009. november 11. 16:46

A Microsoft is beszáll az adattárház-üzletbe

2010 első felében érkezik a SQL Server 2008 R2, a Microsoft felfrissített relációs adatbázisa, a hagyományosan nagy termékcsalád új tagokkal is bővül, köztük a Parallel Data Warehouse-zal, amelyből akár petabájtos adattárházak is építhetők.

Élesedő harc az adattárházak piacán

A mai vállalatok egyre több adattal dolgoznak és egyre fontosabbá válik számukra, hogy az adatokból az üzletet támogató, hasznos információt tudjanak kinyerni., hogy a legjobb döntést hozhassák meg akár rövid, akár hosszú távon. Az adattárházak pontosan ebben a folyamatban játszhatnak meghatározó szerepet, ezért ezeket a megoldásokat az utóbbi időben folyamatosan növekvő szakmai és piaci érdeklődés övezi. A piacon fej-fej mellett versenyeznek a hagyományos adattárház-cégek, például a Teradata vagy a Netezza, amelyek saját szoftvert és hardvert kínálnak, illetve a tömegszerverekre építő Oracle és hamarosan a Microsoft.

Az Oracle Exadatához hasonlóan a Microsoft megoldása is egy szervereket, tárolókat, hálózati eszközöket és szoftvereket tartalmazó, előre integrált, gyárilag telepített és konfigurált \"készülék\" (appliance), amely néhány terabájttól egészen petabájtos méretű adattárházak kiszolgálására hivatott. Érdekesség, hogy a SQL Server 2008 R2-re alapozó megoldást még a DATAllegro nevű vállalat fejlesztette, amelyet a Microsoft tavaly ősszel vásárolt fel.

Anthony Howcroft, a DATAllegro korábbi európai értékesítési vezetője, a Microsoft adattárházakért felelős európai vezetője elmondta, a DATAllegro Ultra Shared Nothing architektúráját még Linuxra és Ingres adatbázisra fejlesztette ki annak idején, a Microsoft-akvizíció után tértek át SQL Server használatára. A SQL Server 2008 R2 Parallel Data Warehouse egy MPP (massively parallel processing) architektúrára épülő termék, Howcroft szerint ez a megközelítés sokkal inkább alkalmas adattárházak futtatására mint az SMP (symmetric multi-processing), amelyen az OLTP feladatok érzik jól magukat.

A különbség oka, hogy online tranzakciófeldolgozás esetén rendszerint egyszerű műveleteket kell extrém párhuzamossággal végrehajtani a lehető legnagyobb teljesítmény eléréséhez, míg adattárházak esetén a lekérdezések bonyolultak, összetettek és a felhasznált adattömeg is jóval nagyobb. Röviden: mí g az online tranzakciókezelés jellemzően \"scale-up\" probléma, az adattárzáz inkább \"scale-out\". Az Oracle új Exadata rendszere mind a két felhasználási körülménynek egyszerre próbál megfelelni, azaz egyszerre használható OLTP-re és adattárházra.

Parallel Data Warehouse

A Microsoft SQL Server 2008 R2 Parallel Data Warehouse felépítése egyszerű: kettő vagy több racket igényel a megoldás, az egyik rackben van az irányító intelligencia, itt történik az adatok betöltése, a lekérdezések kezelése, a node-ok felügyelete, valamint az adatok mentése. A másik rackben vannak azok a szerverek és tárolók, amelyek az adatokat tartalmazzák és amelyek a lekérdezéseket ténylegesen végrehajtják. A Microsoft állítása szerint akár petabájtos méretig is skálázható a Parallel Data Warehouse, ehhez a felhasznált szerverek típusától függően elég sok rackre is szükség lehet. A lekérdezéseket végrehajtó szerverek egyébként SQL Server 2008 R2-t futtató kétutas, négymagos x86-os kiszolgálók, a tárolószerverek szintén. A compute node-okat Infiniband kapcsolja össze, a tárolók FC hálózatra csatlakoznak. Mindne compute node-hoz egy tároló node tartozik.

\"\"

A compute és storage node-okon kívül a rendszerben van még backup node, ez az adatok mentéséért és visszaállításáért felel, a \"landing zone\" tárolja a betöltésre szánt adatokat és a lekérdezések eredményeit, emellett van még legalább egy menedzsment-node, amely a rendszer tartományvezérlője, ezen keresztül történik a patchek telepítése, illetve ez tárolja az összes csomópont lemezképét (image), hogy például meghibásodást követő hardvercsere esetén valamelyik csomópontot újra kell telepíteni.

A hardver x86-os tömegszerverekből áll tehát, amelyek Microsoft SQL Server 2008 R2-t futtatnak, a Parallel Data Warehouse lényege az irányító intelligencia, az MPP működést felügyelő szoftver, ez gondoskodik a lekérdezések optimalizálásáról, a végrehajtás ellenőrzéséről, a metaadatok és a sémák kezeléséről, valamint természetesen az adatok elosztásáról, particionálásról és replikálásról a csomópontok között annak érdekében, hogy az adattárház a lehető legnagyobb teljesítménnyel tudjon működni.

Jobbról előz a Microsoft?

Arra a kérdésre, hogy a Microsoft milyen üzenetekkel száll majd szembe a konkurenciával az adattárház-piacon, Howcroft több válasszal is szolgált. Szerinte már középtávon is az Oracle és a Microsoft kezében fog konszolidálódni ez a piac, a legnagyobb hagyományos szereplő, a Teradata a magas ára miatt egyre inkább kiszorul. A fiatal, ígéretes technológiával dolgozó Netezza pedig egyszerűen túl kicsi még, ráadásul folyamatosan ott lebeg egy akvizíció veszélye a feje felett, ezért az adattárházak vásárlói kétszer is meg fogják gondolni, hogy a Netezzára bízzák-e adataikat – vélekedett Howcroft.

\"\"

Végül tehát két szereplő marad, az Oracle és a Microsoft. A redmondi cég ugyanazzal akarja megverni az Oracle-t az adattárház-piacon, mint az adatbázis-piacon: alacsonyabb ár és szoros integráció a többi Microsoft-termékkel. Howcroft elmondása szerint kulcsfontosságú előnye a Microsoftnak ezen a piacon, hogy az üzleti elemzésekhez használt Excel szállítója, így lényegében az elemzők asztalán levő szoftvertől egészen az adattárházig egy komplett, átfogó megoldást tud nyújtani. Másrész – mondja Howcroft – a Microsoft jóval olcsóbb lehet az Oracle-nál.

A SQL Server 2008 R2 Parallel Data Warehouse ára egyelőre nem ismert, az erre épülő integrált adattárház-megoldások több nagy szervergyártó (HP, IBM, Bull, stb.) kínálatában meg fognak jelenni valamikor a jövő év első felében. Azt már most tudni, hogy a Parallel Data Warehouse első változatának lesznek korlátai, például nem támogat bizonyos adattípusokat, illetve tárolt eljárásokat vagy triggereket,

A HackerRank 2020-as, 116.000 fejlesztő válaszaiból készült kutatása szerint a legtöbbjük a Go-t szeretné megtanulni következőleg, amely eredménynek az okait most ebben a cikkben szedtük össze.

a címlapról