2016. november 24. 12:26

Ijesztően jól olvas szájról a mesterséges intelligencia

Két 2016-os kutatás is igyekszik bizonyítani, hogy a mesterséges intelligencia szájról olvasási eredménye jobb az emberi felismerésnél. Az oxfordi egyetem egyik kutatócsoportja előre megkomponált, három másodperces videókból álló adathalmazon tanította és tesztelte a LipNetet; a másik tanszék pedig BBC videókkal képezte a saját rendszerét.

Sok összetett dologtól függ a szájról olvasás, úgy mint a szövegkörnyezet, a nyelv és vizuális jelek, viszont a kutatások szerint a mesterséges intelligenciának mindez kevésbé okoz problémát, mint a szájról olvasás profi szakértőinek. A hivatásos szájról olvasók átlagosan 20-60 százalék közötti pontossággal tudják kitalálni a megfigyelt személy szavait, a körülményektől, a távolságtól és a száj láthatóságától is függően. Oxfordi kutatók egy teszten bizonyították, hogy a rendszerük 93,4 százalékos pontossággal ismeri fel a szavakat néma videók alapján szájról olvasással, míg az önkéntesek 52,3 százalékban voltak erre képesek.

A meglepően jó eredményt elérő LipNet rendszert az Oxfordi Egyetem informatikai tanszéke fejlesztette ki egy projekt keretében, amelyben a szájról olvasó MI tanítását a kutatók GRID adathalmazon végezték - korábban próbálkoztak egyébként különálló szavak megtanításával is, de azzal csak 79,6 százalékos felismerési pontosságot értek el, ezért váltottak teljes mondatokra. A gyűjtemény olyan három másodperces videókból áll, amelyben jól látható és előre néző pózban olvasó emberek szerepelnek - tehát ideális körülmények között, hogy a beszéd könnyen felismerhető legyen. A felvételeken lévő minden egyes mondat ugyanazt a mondatszerkezetet követi, a szavak meghatározott sorrendjében: egy parancs igéje, egy szín, egy prepozíció, egy betű, egy szám 1-10 között és egy határozószó (például "Place blue in m 1 soon").

LipNet: How easy do you think lipreading is?

Még több videó

A kutatók a GRID adathalmazt arra használták, hogy olyan neurális hálózatot tanítsanak, amely nem csak felismeri a mondatokat, hanem értelmezi a jelentés alapján, információkat és kontextust társít hozzájuk. Ez azért is fontos, mert az emberi beszéd közben kevesebb a szájmozgás, mint amennyi hangot a beszélő kiad. Tanítás közben a kutatók összesen 29 ezer három másodperces videót mutattak a rendszernek, majd háromszáz véletlenszerűen kiválasztott videón mérték össze az MI tudását és a fogyatékkal élő hallgatók közösségéből kiválasztott három személyét. Ebben a formában nem volt túl nehéz az MI dolga, de az emberi felismeréshez képest még így is jónak tűnik a csaknem dupla akkora, és majdnem hibátlan felismerési eredmény. Emellett nem hiába kezdték el kritizálni az eredményt a nemzetközi kutatók Twitteren, mivel az a valós élet mondataival valószínűleg nem tudna megbirkózni jelenlegi formájában.

Két hiánypótló AI Engineering képzéssel indítjuk 2026-ot!

8 alkalmas, 24 órás online Agentic AI Software Engineering és AI Engineering képzéseket indítunk. Március 16-ig early bird kedvezmény!

Két hiánypótló AI Engineering képzéssel indítjuk 2026-ot! 8 alkalmas, 24 órás online Agentic AI Software Engineering és AI Engineering képzéseket indítunk. Március 16-ig early bird kedvezmény!

Kevésbé könnyű utat választott a tanításra egy másik oxfordi kutatócsoport, a mérnöki tudományok tanszéke ötezer órányi, 100 ezer videóból és 118 ezer mondatból álló BBC televíziós felvételt dolgozott fel a Google DeepMind rendszerével. A GRID-del ellentétben ezeken a felvételeken különböző fejtartással, eltérő megvilágításban jelennek meg a műsor szereplői, és persze nyelvtani szempontból különféle mondatokat használnak. Ebben a formában kevésbé volt hatékony a rendszer mint a faék egyszerű mondatoknál, a szavaknak csak 46,8 százalékát ismerte fel, de ez is több, mint triplája volt az emberi 12,4 százalékos felismerésnek.

Annak ellenére, hogy a két példában eltérő megközelítések szerepeltek a mesterséges intelligencia tanítására és eredményeire, az mindkét esetben egyértelmű volt, hogy a rendszer jobb eredményeket ért el az emberi felismerésnél. A szájról olvasás gépi automatizálásának felhasználására több lehetőség adódik olyan helyzetekben, mikor zajos környezetben kell kiszűrni a mondatokat, például videóhívásoknál, de a módszer a halláskárosultak és a titkosszolgálatok számára is kézenfekvő. A példákból az is látszik, hogy egyelőre még nincs meg a bevált módszer az MI tanítására, de a kutatók aktívan dolgoznak a rendszerek tökéletesítésén.

Ijesztően jól olvas szájról a mesterséges intelligencia

LipNet: How easy do you think lipreading is?

Két hiánypótló AI Engineering képzéssel indítjuk 2026-ot!

Kukázza közös adatközpont-bővítését az Oracle és az OpenAI

Piacteret indít az Anthropic a Claude-appokhoz

A deepfake-vonaton nincs fék

Ijesztően jól olvas szájról a mesterséges intelligencia

LipNet: How easy do you think lipreading is?

Két hiánypótló AI Engineering képzéssel indítjuk 2026-ot!

Kukázza közös adatközpont-bővítését az Oracle és az OpenAI

Piacteret indít az Anthropic a Claude-appokhoz

A deepfake-vonaton nincs fék

Bezuhant a kínai tévépiac, a Samsung megőrizte globális elsőségét

Két hiánypótló AI Engineering képzéssel indítjuk 2026-ot!

Még szigorúbb hellyé vált az internet Ausztráliában

Bezuhant a kínai tévépiac, a Samsung megőrizte globális elsőségét

Még szigorúbb hellyé vált az internet Ausztráliában

Érzékeny felvételek miatt áll a bál a Meta okosszemüvege körül