:

Szerző: Habók Lilla

2016. november 24. 12:26

Ijesztően jól olvas szájról a mesterséges intelligencia

Két 2016-os kutatás is igyekszik bizonyítani, hogy a mesterséges intelligencia szájról olvasási eredménye jobb az emberi felismerésnél. Az oxfordi egyetem egyik kutatócsoportja előre megkomponált, három másodperces videókból álló adathalmazon tanította és tesztelte a LipNetet; a másik tanszék pedig BBC videókkal képezte a saját rendszerét.

Sok összetett dologtól függ a szájról olvasás, úgy mint a szövegkörnyezet, a nyelv és vizuális jelek, viszont a kutatások szerint a mesterséges intelligenciának mindez kevésbé okoz problémát, mint a szájról olvasás profi szakértőinek. A hivatásos szájról olvasók átlagosan 20-60 százalék közötti pontossággal tudják kitalálni a megfigyelt személy szavait, a körülményektől, a távolságtól és a száj láthatóságától is függően. Oxfordi kutatók egy teszten bizonyították, hogy a rendszerük 93,4 százalékos pontossággal ismeri fel a szavakat néma videók alapján szájról olvasással, míg az önkéntesek 52,3 százalékban voltak erre képesek.

A meglepően jó eredményt elérő LipNet rendszert az Oxfordi Egyetem informatikai tanszéke fejlesztette ki egy projekt keretében, amelyben a szájról olvasó MI tanítását a kutatók GRID adathalmazon végezték - korábban próbálkoztak egyébként különálló szavak megtanításával is, de azzal csak 79,6 százalékos felismerési pontosságot értek el, ezért váltottak teljes mondatokra. A gyűjtemény olyan három másodperces videókból áll, amelyben jól látható és előre néző pózban olvasó emberek szerepelnek - tehát ideális körülmények között, hogy a beszéd könnyen felismerhető legyen. A felvételeken lévő minden egyes mondat ugyanazt a mondatszerkezetet követi, a szavak meghatározott sorrendjében: egy parancs igéje, egy szín, egy prepozíció, egy betű, egy szám 1-10 között és egy határozószó (például "Place blue in m 1 soon").

01:44
 

LipNet: How easy do you think lipreading is?

Még több videó

A kutatók a GRID adathalmazt arra használták, hogy olyan neurális hálózatot tanítsanak, amely nem csak felismeri a mondatokat, hanem értelmezi a jelentés alapján, információkat és kontextust társít hozzájuk. Ez azért is fontos, mert az emberi beszéd közben kevesebb a szájmozgás, mint amennyi hangot a beszélő kiad. Tanítás közben a kutatók összesen 29 ezer három másodperces videót mutattak a rendszernek, majd háromszáz véletlenszerűen kiválasztott videón mérték össze az MI tudását és a fogyatékkal élő hallgatók közösségéből kiválasztott három személyét. Ebben a formában nem volt túl nehéz az MI dolga, de az emberi felismeréshez képest még így is jónak tűnik a csaknem dupla akkora, és majdnem hibátlan felismerési eredmény. Emellett nem hiába kezdték el kritizálni az eredményt a nemzetközi kutatók Twitteren, mivel az a valós élet mondataival valószínűleg nem tudna megbirkózni jelenlegi formájában.

Az AI és a nagy full-full-stack trend

Az AI farvizén számos új informatikai munkakör születik, vagy már ismert munkák kapnak új nevet és vele extra elvárásokat is.

Az AI és a nagy full-full-stack trend Az AI farvizén számos új informatikai munkakör születik, vagy már ismert munkák kapnak új nevet és vele extra elvárásokat is.

Kevésbé könnyű utat választott a tanításra egy másik oxfordi kutatócsoport, a mérnöki tudományok tanszéke ötezer órányi, 100 ezer videóból és 118 ezer mondatból álló BBC televíziós felvételt dolgozott fel a Google DeepMind rendszerével. A GRID-del ellentétben ezeken a felvételeken különböző fejtartással, eltérő megvilágításban jelennek meg a műsor szereplői, és persze nyelvtani szempontból különféle mondatokat használnak. Ebben a formában kevésbé volt hatékony a rendszer mint a faék egyszerű mondatoknál, a szavaknak csak 46,8 százalékát ismerte fel, de ez is több, mint triplája volt az emberi 12,4 százalékos felismerésnek.

Annak ellenére, hogy a két példában eltérő megközelítések szerepeltek a mesterséges intelligencia tanítására és eredményeire, az mindkét esetben egyértelmű volt, hogy a rendszer jobb eredményeket ért el az emberi felismerésnél. A szájról olvasás gépi automatizálásának felhasználására több lehetőség adódik olyan helyzetekben, mikor zajos környezetben kell kiszűrni a mondatokat, például videóhívásoknál, de a módszer a halláskárosultak és a titkosszolgálatok számára is kézenfekvő. A példákból az is látszik, hogy egyelőre még nincs meg a bevált módszer az MI tanítására, de a kutatók aktívan dolgoznak a rendszerek tökéletesítésén.

Szeptember 15-én, hétfőn ONLINE formátumú, a Kafka alapjaiba bevezető képzést indít a HWSW, ezért most összefoglaltuk röviden, hogy miért érdemes részt venni ezen a tanfolyamon.

a címlapról

MS

0

Lezárta a Teams-ügyet az EU

2025. szeptember 12. 12:45

A Bizottság elfogadta a Microsoft által tett engedményeket, nincs retorzió az idestova öt éve húzódó eljárás végén.

bango

4

Tartalomautomatával bővül a OneTV

2025. szeptember 12. 09:27

A One tévés platformjába a Bango DVM-jét integrálják, ami jelentős mértékben megkönnyíti az új tartalomszolgáltatások bevezetését.