Szerző: Hlács Ferenc

2016. October 20. 09:17:00

Emberi szinten a Microsoft beszédfelismerő rendszere

Az emberi tesztalanyokkal megegyező pontossággal azonosította a hallott beszédet a Microsoft beszédfelismerője. A rendszer rövidesen a Cortana fegyvertárába is bekerülhet.

Mérföldkőnél a Microsoft beszédfelismerési rendszere, a vállalat szerint technológiája már az emberi szinttel megegyező pontossággal képes a beszéd azonosítására.

A Microsoft Artificial Intelligence and Research divíziójának mérnökei szerint a tesztek során a rendszer ugyanannyi, vagy kevesebb hibát vétett, mint az összehasonlításhoz vizsgált emberi tesztalanyok. A felismerő egész pontosan 5,9 százalékos WER (Word Error Rate) hibarátát produkált, ami számottevő fejlődés már az egy hónappal korábbi, 6,3 százalékos eredményhez viszonyítva is. Ez továbbá a vállalat szerint a valaha mért legalacsonyabb érték, amelyet az iparági szabványként kezelt Switchboard beszédfelismerő teszt során mértek.

Geoffrey Zweig, a Microsoft Speech & Dialog részlegének vezetője szerint az áttörés annak köszönhető, hogy a rendszer minden egyes részénél kiterjedt neurális hálókat használtak annak betanítására - a bevetett neurális nyelvi modell az egyes szavakat folyamatos, térbeli vektorokként reprezentálja, ennek megfelelően a hasonló jelentésű szavak egymáshoz közel találhatók benne. A cég szerint a mérföldkő mögött húsz évnyi munka áll, az vállalat frissen publikált kutatás eredménye pedig rövidesen különböző konzumer eszközökben is feltűnhet, nem lenne meglepő, ha azzal a későbbiekben Xbox konzolban, illetve a Microsoft virtuális asszisztense, a Cortana fegyvertárában is találkoznánk.

Machine learning és Scrum alapozó képzéseket indítunk! (x) A HWSW októberben induló gyakorlatorientált, 10 alkalmas, 30 órás online képzéseire most early bird kedvezménnyel lehet regisztrálni!

A projekthez a Microsoft Computational Network Toolikt vagy röviden CNTK néven ismert, házon belül fejlesztett deep learning rendszerét használta, amelynek forrását időközben megnyitotta, így azt GitHubon minden érdeklődő szabadon elérheti. Ahogy sok más hasonló megoldás, a CNTK is elsősorban a GPU-ra támaszkodik.

A rendszernek persze még így is van hova fejlődnie, hiszen felismerőképessége bár megegyezik az emberekével, még mindig nem tökéletes, az emberi tesztalanyok által vétett hibák jellemzően esetében is megjelennek. Rontja továbbá a beszédfelismerő hatékonyságát, ha túl nagy a háttérzaj, illetve különböző, párhuzamos beszélők megkülönböztetése terén is akadnak még kihívások, amelyeket le kell küzdeni.

a címlapról