Szerző: Gálffy Csaba

2016. január 18. 11:41

Gigantikus gépitanulás-adatbázist ajándékoz a Yahoo

A jelenleg elérhető legnagyobb adatbázist tette nyilvánosan elérhetővé a Yahoo - jelentette be a cég múlt héten. A felhasználók hírfogyasztási szokásaira vonatkozó gigantikus adatbázis közzétételétől a cég a gépi tanulás, mint kutatási terület gyorsabb fejlődését várja.

Látványos méretű, kutatásra használható adatbázist tett elérhetővé a Yahoo. A gépi tanulásra vonatkozó kutatások egyik alapfeltétele az ilyen giga-adatbázisokhoz való hozzáférés, ilyenekkel azonban jellemzően csak a nagy tech-cégek rendelkeznek, a független kutatást végző egyetemek, kutatóintézetek ebből a szempontból hátrányban vannak. Ezt az igényt ismerte fel a Yahoo, az új adatbázissal pont ezeken az entitásokon szeretne segíteni.

Az adatbázis mintegy 110 milliárd adatsort tartalmaz, tömörítés nélkül 13,5 terabájt nagyságú. Az anonimizált adatok mintegy 20 millió felhasználó hírfogyasztási szokásaira vonatkoznak, ezeket a cég 2015 februárja és májusa között gyűjtötte a cég a Yahoo weboldalán, illetve a Yahoo News, Sports, Finance, Movies és Real Estate oldalain.

Az adatbázis roppant gazdag, vannak információk a felhasználók demográfiai adatairól (életkor, nem, lokáció), a fogyasztott tartalmak címe, kivonata és kulcsmondatai, az interakció időpontja (helyi idő szerint) és az eléréshez használt eszköz típusára vonatkozó adatok is megtalálhatóak. A cég komolyan odafigyelt arra, hogy az adatbázist anonimizálja, így bizonyos adatokat (életkor, lokáció) pontatlanabbá tett, hogy lehetetlenné tegye az egyes felhasználók beazonosítását.

Égbe révedő informatikusok: az Időkép-sztori

Mi fán terem az előrejelzés, hogy milyen infrastruktúra dolgozik az Időkép alatt, mi várható a deep learning modellek térnyerésével?

Égbe révedő informatikusok: az Időkép-sztori Mi fán terem az előrejelzés, hogy milyen infrastruktúra dolgozik az Időkép alatt, mi várható a deep learning modellek térnyerésével?

A most közzétett adathalmazt a Yahoo elsősorban ajánlórendszerek validációjához, kollaboratív szűréshez, kontextus-alapú tanuláshoz, felhasználói viselkedés modellezéséhez ajánlja. Az adatbázis kizárólag független (non-profit) kutatók tölthetik le ingyenesen, egyedi elbírálás alapján. A kereskedelmi használatot a cég tiltja, így (elvben) az adatbázis nem használható céges kutatás-fejlesztés alapjául.

A gépi tanulás egyébként az elmúlt és elkövetkező évek legforróbb tech-témája. Ez dolgozik a Google keresési találatai, a Facebook hírfolyama, a Netflix ajálórendszere, a Spotify Discover és a kedvenc webes áruházunk ajánlódoboza mögött is. De alapvetően ugyanilyen elven működnek a gépi látási rendszerek is, amelyek hatalmas adatbázisokon tanított gépekkel képesek felismerni például az utcai táblákat és egyéb jelzéseket. A kutatások "demokratizálása" így nagyon fontos kérdéssé vált: a cégek elképesztő összegeket költenek a saját adathalmazok felépítésére (lásd az utakat folyamatosan pásztázó Google-autók), emiatt csak nagyon kevés entitás engedheti meg magának, hogy versenyképes megoldást fejlesszen. A Yahoo ezt a hatást szeretné kissé tompítani, legalábbis ami a webes tartalomajánló rendszerek területét illeti.

Nagyon széles az a skála, amin az állásinterjú visszajelzések tartalmi minősége mozog: túl rövid, túl hosszú, semmitmondó, értelmetlen vagy semmi. A friss heti kraftie hírlevélben ezt jártuk körül. Ha tetszett a cikk, iratkozz fel, és minden héten elküldjük emailben a legfrissebbet!

a címlapról