Szerző: Hlács Ferenc

2016. augusztus 19. 15:20:00

A Facebook is megnyitja AI-szövegosztályozóját

Szabadon elérhető a Facebook mesterséges intelligenciára építő szövegosztályozójának forráskódja. A fastText nevű szoftver a cég szerint a hagyományos neurális hálózatokra építő megoldásoknál nagyságrendekkel gyorsabban dolgozik.

A hétvégéhez közeledve egymást érik a nyílt forrású projektekhez kapcsolódó hírek: a Microsoft a PowerShell forráskódját nyitotta meg, és tette elérhetővé Linux alatt is az eszközt, közben pedig szinte párhuzamosan a Facebook is közkinccsé tette mesterséges intelligenciára építő, szövegosztályozó eszközét, a fastTexteet. A vállalat mesterségesintelligencia-kutatással foglalkozó divíziója, a FAIR (Facebook Artificial Intelligence Research) által fejlesztett szoftverrel a cég egy egyszerűbb, ugyanakkor továbbra is hatékony eszközt igyekezett létrehozni a különböző szöveges tartalmak osztályozására, a területen hagyományosan használt, pontos, de komoly előzetes tanulásigényű neurális hálózatoknál.

Bár a neurális hálózatok (amelyek felépítésével az érdeklődők itt ismerkedhetnek meg részletesebben) jellemzően népszerű választásnak számítanak a nyelvfeldolgozás, illetve szövegosztályozás terén, a hozzájuk kapcsolódó hosszadalmas tesztelési és tanítási folyamatok miatt nagyméretű adathalmazok esetén alkalmazásuk nem a legpraktikusabb. A fastText ezt a problémát a terjedelmes, sok kategóriával rendelkező adatbázisok esetében hierarchikus osztályozással oldja meg.

Machine learning és Scrum alapozó képzések indulnak! (x) A HWSW októberben induló gyakorlatorientált, 10 alkalmas, 30 órás online képzéseire most early bird kedvezménnyel lehet regisztrálni!

A közösségi oldal tesztjei alapján megoldása sokszor megegyező pontosságot produkál, mint a hagyományos, neurális hálózatokra építő eszközök, eközben pedig azoknál nagyságrendekkel kevesebb előzetes tanulást és ellenőrzést igényel. A cég szerint a fastTexttel a betanítási idők elképesztően lecsökkentek, gyakran néhány napról néhány másodpercre. A szövegosztályozást az online cégek számos területen használják, a spamüzenetek beazonosításától és kiszűrésétől a felhasználói vélemények besorolásáig. Miután a fastText nevéből is sejthetően kifejezetten erre az egy feladatra készült, a cég szerint rendkívül gyorsan betanítható - egy összesen egymilliárd szóból álló adathalmazzal például kevesebb mint 10 perc alatt birkózott meg a szoftver, egy "hagyományos többmagos CPU-t" használva, félmillió mondatot pedig kevesebb mint öt perc alatt osztályozott 300 ezer kategória alapján.

A Facebook nem csak a fastText librarykat teszi elérhetővé, minden korábbi, az immár nyílt forrású eszközhöz kapcsolódó kutatását is publikálja, hogy az érdeklődő közösség teljes képet kapjon annak létrejöttéről és működéséről. A cég szerint a megoldás jól skálázható, és az elmúlt évtizedek legsikeresebb természetes nyelvfeldolgozási koncepcióit ötvözi. A fastText az angol mellett több más nyelven is bevethető, legyen szó német, spanyol francia vagy akár cseh szövegekről. Az érdeklődők mától maguk is használatba vehetik az eszközt, amelyhez GitHubon férhetnek hozzá.

a címlapról