Szerző: Dojcsák Dániel

2009. November 20. 13:30:00

Beszédfelismerés a YouTube-on

A YouTube egy újabb nagyon hasznos funkcióval bővítette eszköztárát. A Google automatikus hangfelismerő (ASR) technológiáját ötvözve a videomegosztó feliratozó rendszerével, létrejött egy automata feliratkészítő megoldás.

A feliratozó ugyanazt az algoritmust használja, mint a Google Voice szolgáltatás, ahol a felhasználónak küldött hangüzenetből a rendszer szöveget készít, s azt elküldi az illető Gmail-fiókjába. Ugyanez a YouTube esetében annyit tesz, hogy a feltöltött videók alatt lévő hangsávban található beszédet elemezve, szöveges formátumot állít elő, melyet a videó alá időzít. Mind a feliratozás, mind az időzítés teljesen automatikus, bár a felismerő pontatlan lehet, ezért a fejlesztők azt javasolják, hogy a művelet után a manuális ellenőrzés se maradjon ki.

Csak angolul

A funkció egyelőre csak angol nyelven működik, s tudva azt, hogy a magyar nyelv túl bonyolult, a magyar piac pedig túl kicsi, a mi anyanyelvünkön valószínűleg soha, vagy csak nagyon sokára lesz elérhető hasonló megoldás. Angol nyelven viszont már éles üzembe is állt, igaz nem minden felhasználó számára érhető még el. Egyelőre csak egy kis számú csatorna gazdái élhetnek a lehetőséggel, ahol leginkább beszélgetések, interjúk, előadások jelennek meg. A kedvezményezettek közt van több nagyobb amerikai egyetem, mint a UC Berkeley, Stanford, Yale, UCLA, Columbia, illetve az MIT és a National Geographic is.

Újdonság az automatikus időzítési lehetőség, amivel a felhasználónak elég egy egyszerű szöveges leiratot feltölteni, s a hangfelismerő megtalálja, hogy mikor hangzanak el az adott szavak, mondatok. Ez szintén csak angol nyelven érhető el, a többi nyelven a feliratozáshoz továbbra is egy szabványos időkódokkal ellátott feliratfájlt kell hozzáadni a videóhoz.

Ezer lehetőség

Ez a megoldás egyrészt kényelmesebbé teszi a feliratok használatát, de leginkább a hallássérültek esélyeit javítja az online médiafogyasztásra. Ezek után a beszélgetős műsorok többségénél a feltöltő valószínűleg nem hagyja ki, hogy szövegesen is elérhetővé tegye az elhangzottakat. Ha pedig a jövőbe nézünk, akkor a hangfelismerő további fejlesztésével szinte bármilyen beszédből írott tartalmat lesz képes előállítani a Google. A korábbi években a Microsoft erőlködött hasonló megoldásokkal, s a 2003-as Office óta már egész látványos eredményeket volt képes elérni a cég, de az utóbbi években eltűnt a korábbi lelkesedés, nem fejlődött látványosan ez a terület. A Google szolgáltatásain belül viszont számtalan felhasználási területe lehet az ASR-nek, kezdve a keresőtől, a Gmailen át, akár a Wave-ig.

a címlapról