:

Szerző: Hlács Ferenc

2016. október 20. 09:17

Emberi szinten a Microsoft beszédfelismerő rendszere

Az emberi tesztalanyokkal megegyező pontossággal azonosította a hallott beszédet a Microsoft beszédfelismerője. A rendszer rövidesen a Cortana fegyvertárába is bekerülhet.

Mérföldkőnél a Microsoft beszédfelismerési rendszere, a vállalat szerint technológiája már az emberi szinttel megegyező pontossággal képes a beszéd azonosítására.

A Microsoft Artificial Intelligence and Research divíziójának mérnökei szerint a tesztek során a rendszer ugyanannyi, vagy kevesebb hibát vétett, mint az összehasonlításhoz vizsgált emberi tesztalanyok. A felismerő egész pontosan 5,9 százalékos WER (Word Error Rate) hibarátát produkált, ami számottevő fejlődés már az egy hónappal korábbi, 6,3 százalékos eredményhez viszonyítva is. Ez továbbá a vállalat szerint a valaha mért legalacsonyabb érték, amelyet az iparági szabványként kezelt Switchboard beszédfelismerő teszt során mértek.

Geoffrey Zweig, a Microsoft Speech & Dialog részlegének vezetője szerint az áttörés annak köszönhető, hogy a rendszer minden egyes részénél kiterjedt neurális hálókat használtak annak betanítására - a bevetett neurális nyelvi modell az egyes szavakat folyamatos, térbeli vektorokként reprezentálja, ennek megfelelően a hasonló jelentésű szavak egymáshoz közel találhatók benne. A cég szerint a mérföldkő mögött húsz évnyi munka áll, az vállalat frissen publikált kutatás eredménye pedig rövidesen különböző konzumer eszközökben is feltűnhet, nem lenne meglepő, ha azzal a későbbiekben Xbox konzolban, illetve a Microsoft virtuális asszisztense, a Cortana fegyvertárában is találkoznánk.

Dobpergés: AI engineering demo day-jel és képzéssel is érkezünk!

3 csapat, 3 demó, avagy hogyan is használjuk az AI-t? November 17-én érkezik a demo day, 19-én pedig ez első AI képzésünk.

Dobpergés: AI engineering demo day-jel és képzéssel is érkezünk! 3 csapat, 3 demó, avagy hogyan is használjuk az AI-t? November 17-én érkezik a demo day, 19-én pedig ez első AI képzésünk.

A projekthez a Microsoft Computational Network Toolikt vagy röviden CNTK néven ismert, házon belül fejlesztett deep learning rendszerét használta, amelynek forrását időközben megnyitotta, így azt GitHubon minden érdeklődő szabadon elérheti. Ahogy sok más hasonló megoldás, a CNTK is elsősorban a GPU-ra támaszkodik.

A rendszernek persze még így is van hova fejlődnie, hiszen felismerőképessége bár megegyezik az emberekével, még mindig nem tökéletes, az emberi tesztalanyok által vétett hibák jellemzően esetében is megjelennek. Rontja továbbá a beszédfelismerő hatékonyságát, ha túl nagy a háttérzaj, illetve különböző, párhuzamos beszélők megkülönböztetése terén is akadnak még kihívások, amelyeket le kell küzdeni.

Az ageism, vagyis az életkorral kapcsolatos előítélet és diszkrimináció az IT-ban hatványozottan jelen van, akár már 35-40 évesen is bele lehet futni.

a címlapról