Mellékleteink: HUP | Gamekapocs
Keres
Legjobb előadóink az idei SYSADMINDAY-en! IT Security, hálózatok, DevOps, és az elfogadható tagadás módszere a GDPR felnemkészülés után.

Modern adatgazdálkodás Microsoft alapokon

HWSW, 2017. december 13. 10:34

hirdetés

Sokféle adat, egységes megközelítéssel. Strukturált-strukturálatlan, on-premises, nyilvános, hibrid.

Az adatok magukban is értékesek, de együtt mutatják meg igazán a bennük rejlő értéket - hangzik a modern adatgazdálkodás tételmondata. Emiatt érdemes átgondolni az adatgazdálkodást, beleértve mindent, ami az adatokkal történik vagy történhet. Az modern adatgazdálkodás a kép teljességére koncentrál, mindenfajta adatot figyelembe vesz, ami a vállalat/szervezet életében előfordul, legyen bármi a forrása, a tárolási helye, a formátuma vagy akár a frissítési üteme. Ezek pedig ma már nagyon sokfélék lehetnek:

  • Operációs adatbázisok, (OLTP), például ERP vagy más alkalmazások adatai, amelyeket tradicionálisan relációs adatbázisokban szoktunk tárolni.
  • Elemzésekhez és üzleti intelligenciához használt adatok, legyenek akár többdimenziós, akár más formátumban
  • Dokumentum jellegű adatok
  • Hadoop adatbázisok
  • Gráfok
  • Az adattárház vagy az adatpiac, ha ilyeneket kialakítottunk.
  • Érzékelőkből származó adatokat, amelyekre vagy már felépítettünk egy IoT rendszert vagy későbbiekben fogunk ezzel foglalkozni.
  • Strukturált és kevésbé strukturált adatok
  • Gyorsan változó és statikus adatok

A modern adatgazdálkodásnak biztosítania kell, hogy a fentieket egységes szerkezetben kezelhessük, megmaradhassanak saját, natív formájukban, mégis a maximális üzleti értéket nyerje ki belőlük a szervezet.

On-premises vs felhő?

Az adatokat alapvetően két helyen tarthatjuk: a hagyományos helyi infrastruktúrán, vagy a felhőben. Bármelyiket is tartja a szervezet vonzónak, a Microsoft eltökélt szándéka választ adni rá,  a cég adatgazdálkodási modellje helyi (on-premises) és felhőben történő adattárolásra és adatfeldolgozás egyaránt kiterjed, sőt közöttük az átjárhatóságot is biztosítja.

Ez a fajta rugalmasság ma nélkülözhetetlen: minden tárolási-számítási feladat más és más. Azt, hogy mely adataink maradjanak helyben és melyek a felhőben, ezerféle szempont együtthatása dönti el, ráadásul ezek a paraméterek folyamatosan változnak is, ahogy a szabályozási környezet, a cég belső kompetenciái vagy épp a költségmodellek átalakulnak.

sql2

Egy biztos: érdemes átjárhatóvá tenni a két tárolási modellt. A legjobb példákat talán a gépi tanulás szolgáltatja: lehet, hogy a modellek felépítéséhez és gyakori újratanuláshoz szükséges hatalmas adatmennyiségek a felhőben gyűlnek folyamatosan, ezért ott érdemes a modelleket frissíteni, de futtatni már nem a felhőben, hanem helyi adatközpontban vagy akár a peremen található eszközökben optimális. Sokszor a szabályozói megfelelés követelménye is megjelenik. A sok szempontnak könnyebb megfelelni, ha az eszközkészlet nem hoz magával újabb kötöttségeket, hanem a helyi és a felhős lehetőséget is egyformán támogatja.

Helyben is fejlődik

A Microsoft stratégiájának kulcsa, hogy gőzerővel fejleszti az on-premises szoftvereket is és a felhős megoldást is. A jól ismert SQL Server neve ellenére nemcsak relációs, hanem többmodelles gráf és multidimenzionális adatok tárolására vagy lekérdezésére is alkalmas. Memóriában tartott adatokon is képes műveleteket végezni, ami nemcsak a relációs műveleteket, hanem az üzleti intelligenciát is többszörösére gyorsíthatja. Adaptív lekérdezésoptimalizálás és sok kisebb-nagyobb fejlesztés biztosítja, hogy OLTP és az adattárház (TPC-H) teljesítménytesztekben is vezető helyen áll.

A mágia a felhőben történik

A Microsoft egyik legizgalmasabb idei fejlesztése az Azure CosmosDB, egy olyan adatbázis-platform, amely igény szerint képes SQL és NoSQL modellben is működni és globálisan elosztott. A több adatmodell támogatása, a kis késleltetés és a világméretű replikáció, illetve az igény szerint beállítható konzisztencia-szint kiemeli a hagyományos adatbázis-megoldások közül.

sql3

Vannak persze "megszokottabb" megoldások is az Azure kínálatában. A felhőben megtaláljuk ugyanazt az SQL Servert - természetesen szolgáltatásként - amelyet az on-prem világból jól ismerünk. Kedvünk szerinti mélységben át tudjuk engedni az alsóbb rétegek felügyeletét a felhő automatizmusoknak, vagy meg is tudjuk tartani ezt a felelősséget magunknak, ha a csapatban van ehhez szükséges specialista tudás. Az Azure SQL Database hamarosan megjelenő Managed Instance szolgáltatásával megkapjuk a teljes SQL instance feletti felügyelet jogát, ami nagyobb beleszólást jelent, mint az eddig elérhető adatbázis-szintű megközelítés. Ez akkor jön jól, ha egy korábban fejlesztett alkalmazást azért nem tudtunk a felhőbe áthelyezni, mert több, egymással szorosan együttműködő adatbázisból állt. Ezzel megszűnik az akadálya annak, hogy akár a több adatbázisra szétosztott adatkezelést alkalmazó SQL-es alkalmazásokat is az Azure felhőre bízzuk, és élvezzük a elosztott infrastruktúra rugalmasságát.

Támad a GDPR

Az új uniós személyesadat-védelmi szabályrendszer mindenre hatással van, ahol adatok születnek vagy mozognak. Az SQL Server segít megfelelni a májustól érvénybe lépő szigorú követelményeknek, mert képes titkosítás alatt tartani az adatokat egészen a végső lépésig, a kliensig, és ki tudja maszkolni azokat az adatokat akár mezőnként, amelyeket nem szeretnénk felfedni egyes felhasználók előtt. Az Azure adatkezelési szolgáltatásainak többsége megfelel a GDPR követelményeknek, aminek köszönhetően a megfelelőséghez szükséges feladatok egy részét áttehetjük a felhő szolgáltató vállaira.

Screen Shot 2017-12-13 at 10.17.03

Az SQL Server megszületése Linuxra talán sejteti mennyire nyitott a Microsoft adatgazdálkodási világképe. Akár kevert Windows-Linux rendszert is építhetünk, ha több gépre akarjuk elosztani a működést, például rendelkezésre állás érdekében. De a nyitottság nemcsak a Linux vagy a Docker platform támogatását jelenti: az Azure-ban megszületett a MySQL és a PostgreSQL szolgáltatás előzetese is, vagyis ezek az adatmotorok is futnak az Azure-ban a Microsoft üzemeltetésében. Ezzel a MySQL vagy PostgreSQL fejlesztők hozzáférhetnek a megszokott felületekhez, de felhős modellben, óra alapon elszámolva a díjakat. A hasonló menedzselt szolgáltatás MariaDB fejlesztőknek is hamarosan elérhető lesz. Akik Apache Cassandrával fejlesztenek, azoknak jó hír, hogy Cassandra API-t is kapott a CosmosDB, tehát kedvenc adatkezelőjük programozási felületét immár szolgáltatásként is elérhetik előzetes (preview) állapotban. Gépi tanulás területén pedig az R nyelv mellé felsorakozott a Python támogatása is.

Magyarország más?

Régi polémia, hogy Magyarországon mennyire érvényesek a fejlettebb informatikai eszközökre váltásból fakadó megtakarítások, hiszen nálunk kisebb a bérköltség, ezért kisebb az automatizálással elérhető megtakarítás is, mint Nyugat-Európában vagy az Egyesült Államokban. A szakemberhiányos időszak beköszöntésével azonban egyre kevésbé fogunk különbözni a fejlettebb országoktól ebben a tekintetben, sőt nálunk a korábbi alacsony szintről gyorsabban nő az automatizáció hozadéka, mint máshol. Érdemes újra megvizsgálni azokat a korábbi ajánlatokat, ahol az automatizációt elvetettük, mert lehet, hogy a mostani szakemberhiány mellett már érdemes lépni.

Miért fontos ez az adatgazdálkodás szempontjából? A felhő alkalmazása valójában nem más mint egy eszköz az automatizációra, hiszen a felhő egyik lényege, hogy az alacsonyabb rétegek működtetését a szolgáltató végzi, azzal az ügyfélnek nem kell foglalkoznia. Ha felhős alternatívát választjuk, akkor az infrastrukturális feladatokra, amelyek nem termelnek üzleti értéket, nem kell fenntartani specialista tudást. Ezt illusztrálja egy IDC elemzés arról, hogy mekkora megtakarítást lehet elérni az adatkezelés Azure platformszolgáltatásba vitelével. Az adatok mozgatását Azure-ba az Azure Database Migration Service szolgáltatás segíti, amely relációs adatok vagy adattárházak felhőbe emelését végzi el, pillanatnyilag előzetes verzióban.

Az adatgazdálkodásnak természetesen fontos eleme a mesterséges intelligencia is. A tanuló algoritmusok alkalmazásához rendelkezésre álló adatszakértői környezet, a böngészőben használható Azure Machine Learning Studio mellé megszületett az Azure Machine Learning Workbench, amely az adatok előkészítésében, a kísérletek kidolgozásában és a modellek felhőszinten való üzembe helyezésében nyújt segítséget asztalon futó, letölthető alkalmazásként. Külön szolgáltatás, az Azure Machine Learning Experimentation teszi könnyen kezelhetővé a tömeges kísérleteket, továbbá a modellek telepítését és megtartását, ezáltal nő az elvégezhető kísérletek száma és javul az modellek minősége.

És hogy ez hogyan releváns a szervezetek számára? Egy példa a szövegelemzés. A szövegek értése egy izgalmas területe a mesterséges intelligenciának. Az algoritmusok minőségét összehasonlíthatóvá teszik a különböző versenyek, amelyek egységesen definiált feladatokat (szövegek értését és bennük bizonyos kérdésekre válaszoló szakaszok megtalálását) kell elvégeznie az egyes algoritmusoknak. A Stanford Question Answering Dataset adathalmazon a Microsoftnak három különböző algoritmusa is a legjobban teljesítő öt között szerepel a cikk írásakor.

[A Microsoft Magyarország megbízásából készített anyag]

Facebook

Mit gondolsz? Mondd el!

Adatvédelmi okokból az adott hír megosztása előtt mindig aktiválnod kell a gombot! Ezzel a megoldással harmadik fél nem tudja nyomon követni a tevékenységedet a HWSW-n, ez pedig közös érdekünk.
Gál Tamástól Angeloig. IT Security, hálózatok, DevOps, és az elfogadható tagadás módszere a GDPR felnemkészülés után.