Szerző: Habók Lilla

2016. november 24. 12:26

Ijesztően jól olvas szájról a mesterséges intelligencia

Két 2016-os kutatás is igyekszik bizonyítani, hogy a mesterséges intelligencia szájról olvasási eredménye jobb az emberi felismerésnél. Az oxfordi egyetem egyik kutatócsoportja előre megkomponált, három másodperces videókból álló adathalmazon tanította és tesztelte a LipNetet; a másik tanszék pedig BBC videókkal képezte a saját rendszerét.

Sok összetett dologtól függ a szájról olvasás, úgy mint a szövegkörnyezet, a nyelv és vizuális jelek, viszont a kutatások szerint a mesterséges intelligenciának mindez kevésbé okoz problémát, mint a szájról olvasás profi szakértőinek. A hivatásos szájról olvasók átlagosan 20-60 százalék közötti pontossággal tudják kitalálni a megfigyelt személy szavait, a körülményektől, a távolságtól és a száj láthatóságától is függően. Oxfordi kutatók egy teszten bizonyították, hogy a rendszerük 93,4 százalékos pontossággal ismeri fel a szavakat néma videók alapján szájról olvasással, míg az önkéntesek 52,3 százalékban voltak erre képesek.

A meglepően jó eredményt elérő LipNet rendszert az Oxfordi Egyetem informatikai tanszéke fejlesztette ki egy projekt keretében, amelyben a szájról olvasó MI tanítását a kutatók GRID adathalmazon végezték - korábban próbálkoztak egyébként különálló szavak megtanításával is, de azzal csak 79,6 százalékos felismerési pontosságot értek el, ezért váltottak teljes mondatokra. A gyűjtemény olyan három másodperces videókból áll, amelyben jól látható és előre néző pózban olvasó emberek szerepelnek - tehát ideális körülmények között, hogy a beszéd könnyen felismerhető legyen. A felvételeken lévő minden egyes mondat ugyanazt a mondatszerkezetet követi, a szavak meghatározott sorrendjében: egy parancs igéje, egy szín, egy prepozíció, egy betű, egy szám 1-10 között és egy határozószó (például "Place blue in m 1 soon").

01:44
 

LipNet: How easy do you think lipreading is?

Még több videó

A kutatók a GRID adathalmazt arra használták, hogy olyan neurális hálózatot tanítsanak, amely nem csak felismeri a mondatokat, hanem értelmezi a jelentés alapján, információkat és kontextust társít hozzájuk. Ez azért is fontos, mert az emberi beszéd közben kevesebb a szájmozgás, mint amennyi hangot a beszélő kiad. Tanítás közben a kutatók összesen 29 ezer három másodperces videót mutattak a rendszernek, majd háromszáz véletlenszerűen kiválasztott videón mérték össze az MI tudását és a fogyatékkal élő hallgatók közösségéből kiválasztott három személyét. Ebben a formában nem volt túl nehéz az MI dolga, de az emberi felismeréshez képest még így is jónak tűnik a csaknem dupla akkora, és majdnem hibátlan felismerési eredmény. Emellett nem hiába kezdték el kritizálni az eredményt a nemzetközi kutatók Twitteren, mivel az a valós élet mondataival valószínűleg nem tudna megbirkózni jelenlegi formájában.

Jöhet a malware-cunami az iPhone-okra?

Nyílik az iOS, de tényleg annyira veszélyes ez? Annyira azért nem kell félni, elég sok kontroll van még az Apple-nél.

Jöhet a malware-cunami az iPhone-okra? Nyílik az iOS, de tényleg annyira veszélyes ez? Annyira azért nem kell félni, elég sok kontroll van még az Apple-nél.

Kevésbé könnyű utat választott a tanításra egy másik oxfordi kutatócsoport, a mérnöki tudományok tanszéke ötezer órányi, 100 ezer videóból és 118 ezer mondatból álló BBC televíziós felvételt dolgozott fel a Google DeepMind rendszerével. A GRID-del ellentétben ezeken a felvételeken különböző fejtartással, eltérő megvilágításban jelennek meg a műsor szereplői, és persze nyelvtani szempontból különféle mondatokat használnak. Ebben a formában kevésbé volt hatékony a rendszer mint a faék egyszerű mondatoknál, a szavaknak csak 46,8 százalékát ismerte fel, de ez is több, mint triplája volt az emberi 12,4 százalékos felismerésnek.

Annak ellenére, hogy a két példában eltérő megközelítések szerepeltek a mesterséges intelligencia tanítására és eredményeire, az mindkét esetben egyértelmű volt, hogy a rendszer jobb eredményeket ért el az emberi felismerésnél. A szájról olvasás gépi automatizálásának felhasználására több lehetőség adódik olyan helyzetekben, mikor zajos környezetben kell kiszűrni a mondatokat, például videóhívásoknál, de a módszer a halláskárosultak és a titkosszolgálatok számára is kézenfekvő. A példákból az is látszik, hogy egyelőre még nincs meg a bevált módszer az MI tanítására, de a kutatók aktívan dolgoznak a rendszerek tökéletesítésén.

Nagyon széles az a skála, amin az állásinterjú visszajelzések tartalmi minősége mozog: túl rövid, túl hosszú, semmitmondó, értelmetlen vagy semmi. A friss heti kraftie hírlevélben ezt jártuk körül. Ha tetszett a cikk, iratkozz fel, és minden héten elküldjük emailben a legfrissebbet!

a címlapról