Szerző: Barna József

2001. július 10. 22:59

Sigmoid: beszéljünk magyarul a számítógépünkkel!

A nemrégiben életre hívott Sigmoid Kft. igen nagyralátó és ugyanakkor sokunk hasznát szolgáló cél megvalósítását tűzte ki maga elé: a cég egy, a folyamatos magyar beszédet felismerni képes szoftvert fejleszt. S noha a Sigmoid alig több mint féléves múltra tekinthet vissza, munkatársai közel 10 éve foglalkoznak beszédfelismeréssel, -feldolgozással - tudtuk meg Vig Attilától, a cég fejlesztési igazgatójától. Ezalatt az idő alatt nagy beszédadatbázisok megtervezésében, létrehozásában, azok hanganyagának statisztikai elemzésében, a betanításhoz történő előkészítésében valamint különböző felismerési módszerek kidolgozásában szereztek rengeteg tapasztalatot, és értek el ígéretes eredményeket.

Vig arról tájékoztatott bennünket, hogy a végső cél egy olyan magyar nyelvű beszédfelismerő rendszer megalkotása, amelyet

szövegszerkesztő programok kiegészítéseként, a billentyűzet helyettesítésére lehet majd használni, azaz segítségével diktálni tudunk a számítógépnek. Sajnos azonban a magas fejlesztési költségek miatt a munka nagyon lassan halad. A rendszer a mostani állapotában egy bárki által irodai körülmények között (>20-25dB jel/zaj viszony mellett) mikrofonon keresztül bemondott tetszőleges magyar mondatot ~70%-ban képes felismerni. Ez a pontosság még nem teszi lehetővé, hogy diktálhassunk neki. A rendszer csak akkor válik majd a gyakorlatban is felhasználhatóvá, ha sikerül javítani a felismerési pontosságon többek között a nyelvi elemzés felhasználásával. Ez előreláthatólag egy hosszabb távú munka, és a teljes elkészüléséig a rendszer csak igen korlátozott mértékben használható. Éppen ezért célszerűnek láttuk a program módosításával egy másik, egyszerűbb rendszer kifejlesztését is.
Ennek az elkerülhetetlennek látszó korlátozásnak az eredménye a jóval nagyobb hatékonysággal (90%-os felismerési arány) működő izolált szavas beszédfelismerő rendszer. E programmal ún. dialógusrendszerek alakíthatók ki, melyek révén lehetővé válik a számítógéppel egy-egy szavas beszéd útján történő kommunikáció: a gép kérdéseire egy limitált szóanyag használatával válaszolhatunk, míg másrészről utasításokat adhatunk a számítógépnek.

E rendszer beszélőfüggetlenül (azaz bárki által használhatóan, előzetes betanítást nem igényelve) képes akár telefonon keresztül is a bemondott magyar szavakat és kifejezéseket felismerni. Így lehetővé válik akár egy komplett számítógépes menürendszer beszéd általi vezérlése, melynek felhasználási köre igen széles, s a telefonon keresztüli menetjegyrendeléstől a banki információs-rendszereken át akár az autóba épített, műholdas helymeghatározó berendezéssel egybekötött útvonallekérdező rendszerekig is terjedhet.

A projekt első kézzelfogható eredménye a Színözön névre keresztelt játék, mely a népszerű MasterMindot ruházza fel a hallás és a beszéd képességeivel, tehát komplett dialógusrendszernek is tekinthető. A játékot nem szükséges előzőleg a felhasználó hangjára betanítani, bárki hangját felismeri.

Amint Vig elmondta, "Célunk a játékkal az volt, hogy bemutassuk képességeinket, a beszédfelismerésben rejlő lehetőségeket, valamint ötletekkel szolgáljunk az alkalmazási területek sokrétűségét illetően."

A Színözön letölthető a Sigmoid honlapjáról.

Nagyon széles az a skála, amin az állásinterjú visszajelzések tartalmi minősége mozog: túl rövid, túl hosszú, semmitmondó, értelmetlen vagy semmi. A friss heti kraftie hírlevélben ezt jártuk körül. Ha tetszett a cikk, iratkozz fel, és minden héten elküldjük emailben a legfrissebbet!

a címlapról