2016. október 20. 09:17

Emberi szinten a Microsoft beszédfelismerő rendszere

Az emberi tesztalanyokkal megegyező pontossággal azonosította a hallott beszédet a Microsoft beszédfelismerője. A rendszer rövidesen a Cortana fegyvertárába is bekerülhet.

Mérföldkőnél a Microsoft beszédfelismerési rendszere, a vállalat szerint technológiája már az emberi szinttel megegyező pontossággal képes a beszéd azonosítására.

A Microsoft Artificial Intelligence and Research divíziójának mérnökei szerint a tesztek során a rendszer ugyanannyi, vagy kevesebb hibát vétett, mint az összehasonlításhoz vizsgált emberi tesztalanyok. A felismerő egész pontosan 5,9 százalékos WER (Word Error Rate) hibarátát produkált, ami számottevő fejlődés már az egy hónappal korábbi, 6,3 százalékos eredményhez viszonyítva is. Ez továbbá a vállalat szerint a valaha mért legalacsonyabb érték, amelyet az iparági szabványként kezelt Switchboard beszédfelismerő teszt során mértek.

Geoffrey Zweig, a Microsoft Speech & Dialog részlegének vezetője szerint az áttörés annak köszönhető, hogy a rendszer minden egyes részénél kiterjedt neurális hálókat használtak annak betanítására - a bevetett neurális nyelvi modell az egyes szavakat folyamatos, térbeli vektorokként reprezentálja, ennek megfelelően a hasonló jelentésű szavak egymáshoz közel találhatók benne. A cég szerint a mérföldkő mögött húsz évnyi munka áll, az vállalat frissen publikált kutatás eredménye pedig rövidesen különböző konzumer eszközökben is feltűnhet, nem lenne meglepő, ha azzal a későbbiekben Xbox konzolban, illetve a Microsoft virtuális asszisztense, a Cortana fegyvertárában is találkoznánk.

Bérkutatás és menedzserhalál

A 2026-os informatikai fizetéseken pörögtünk, aztán majdnem sikerült lebeszélni mindenkit a menedzser karrierről.

Bérkutatás és menedzserhalál A 2026-os informatikai fizetéseken pörögtünk, aztán majdnem sikerült lebeszélni mindenkit a menedzser karrierről.

A projekthez a Microsoft Computational Network Toolikt vagy röviden CNTK néven ismert, házon belül fejlesztett deep learning rendszerét használta, amelynek forrását időközben megnyitotta, így azt GitHubon minden érdeklődő szabadon elérheti. Ahogy sok más hasonló megoldás, a CNTK is elsősorban a GPU-ra támaszkodik.

A rendszernek persze még így is van hova fejlődnie, hiszen felismerőképessége bár megegyezik az emberekével, még mindig nem tökéletes, az emberi tesztalanyok által vétett hibák jellemzően esetében is megjelennek. Rontja továbbá a beszédfelismerő hatékonyságát, ha túl nagy a háttérzaj, illetve különböző, párhuzamos beszélők megkülönböztetése terén is akadnak még kihívások, amelyeket le kell küzdeni.

Emberi szinten a Microsoft beszédfelismerő rendszere

Az emberi tesztalanyokkal megegyező pontossággal azonosította a hallott beszédet a Microsoft beszédfelismerője. A rendszer rövidesen a Cortana fegyvertárába is bekerülhet.

Bérkutatás és menedzserhalál

Az Anthropic segít a Figmának kódból tervet készíteni

Texas beperelte a TP-Linket

Jönnek a videók az Apple podcast-szolgáltatásába

Emberi szinten a Microsoft beszédfelismerő rendszere

Az emberi tesztalanyokkal megegyező pontossággal azonosította a hallott beszédet a Microsoft beszédfelismerője. A rendszer rövidesen a Cortana fegyvertárába is bekerülhet.

Bérkutatás és menedzserhalál

Az Anthropic segít a Figmának kódból tervet készíteni

Texas beperelte a TP-Linket

Jönnek a videók az Apple podcast-szolgáltatásába

A Meta is sejthette, hogy a szülői felügyeleti eszközök nem sokat érnek

3D-ben térképezi fel Magyarországot a HERE

Egykor teljes kontrollt akart, mostanra kiszállt az Arm-ből az Nvidia

A Meta is sejthette, hogy a szülői felügyeleti eszközök nem sokat érnek

Egykor teljes kontrollt akart, mostanra kiszállt az Arm-ből az Nvidia

Anti-leskelődő újítással jöhet a Galaxy S26