Szerző: Dojcsák Dániel

2011. május 3. 15:36

Megérti a beszédet és fel is olvas a Google

Nem áprilisi tréfa, mint a kézmozdulatokkal működő Gmail, hanem egy valódi kényelmi funkció: a Google keresőmezőbe hamarosan billentyűzet nélkül, csak a hangunkat használva vihetünk be adatot.

A Voice Search az Android, iOS és Blackberry operációs rendszert használó okostelefonokon már jó ideje működik, igaz a minőségével számos probléma akadt korábban. A felhasználók szorgalmas próbálkozásait a Google bizonyára alapos elemzésnek vetette alá, s az algoritmusok annyit fejlődtek, hogy a webes felületen is bevethetőek lettek. A kísérleti funkció egyelőre csak kiválasztott felhasználóknak jelent meg, értelemszerűen azokon a nyelvterületeken, amit a Google támogat.

A felhasználói képernyőképek tanúsága szerint a keresősor mellett egy mikrofon ikon jelent meg, amit megnyomva a szokásos “speak now” utasítás jelenik meg, ezzel együtt pedig bekapcsol a mikrofon és máris lehet diktálni a keresőkifejezést. A Ustream egyik alkalmazottja, Matt Schlicht Twitteren osztotta meg élményeit az új funkcióról, ami szerinte “meglepően jól működik, de elég kellemetlen az irodában használni”.

Csacsog a Google

Valószínűleg nem véletlen egybeesés, hogy a legutóbbi Chrome, a 11-es verzió immár támogatja a HTML voice input funkciót. Ha a jóslatok és a találgatások kicsit is pontosak, akkor heteken belül az angol, kínai, illetve valószínűleg francia, spanyol nyelveken is megjelenhet a funkció. A magyar felhasználók ezzel a lehetőséggel anyanyelvükön nem kacérkodhatnak, hiszen a magyar nyelv bonyolult és csak kevés ember beszéli, így nem valószínű, hogy elkészülne egy ilyen funkció magyarul is a közeljövőben.

Miért nem beszélni AI tökéletesen magyart?

Milyen kihívásokat tartogat egy magyar nyelvi modell, például a PuliGPT fejlesztése?

Miért nem beszélni AI tökéletesen magyart? Milyen kihívásokat tartogat egy magyar nyelvi modell, például a PuliGPT fejlesztése?

Remény persze van, sőt, ha valaki kipróbálja a Google magyar nyelvű TTS (text-to-speech) funkcióját, akkor meglepve tapasztalhatja, hogy a legbonyolultabb szavakat is tökéletesen ejti ki a gép, akár mondatokat is viszonylag tagolva olvas fel az algoritmus. Észrevétlenül iszonyatosan sokat fejlődött a megoldás és egyre több nyelven lesz képes szövegből beszédet képezni a webes szolgáltató, illetve a fentiekből kiderül, hogy ugyanez a terve visszafelé is.

A Desktop Voice Search mellett az okostelefonokon a Google a Translate szolgáltatásában értelmet is nyer a hangfelismerés és a TTS is. A mobilos alkalmazás ugyanis képes arra, hogy a bediktált szöveget felismeri, hogy milyen nyelven van, lefordítja az általunk választott nyelvre, majd felolvassa azt. Ez az eszköz lényegében egy kezdetleges Bábel-hal (Douglas Adams után szabadon) - egy külföldi utazás során bármikor jól jöhet, akár egy piacon, akár egy határátkelőnél, repülőtéren, vagy egy sima útbaigazításkor.

Nagyon széles az a skála, amin a állásinterjú visszajelzések tartalmi minősége mozog: túl rövid, túl hosszú, semmitmondó, értelmetlen vagy semmi. A friss heti kraftie hírlevélben ezt jártuk körül. Ha tetszett a cikk, iratkozz fel, és minden héten elküldjük emailben a legfrissebbet!

a címlapról

fab

5

Chipgyártó nagyhatalommá válna India

2024. március 18. 12:39

A helyi politikai vezetés szerint van rá esély, hogy a következő néhány évben az ország bekerüljön az öt vezető ország közé.