:

Szerző: Dömös Zsuzsanna

2023. január 11. 13:23

Bárkit képes utánozni a Microsoft szövegfelolvasó MI-je

Mindössze három másodperces minta alapján képes emberszerű beszédet generálni a redmondiak új megoldása, ráadásul a szintetizált hangfelvétel nemcsak a beszélő sajátos tónusait tartja meg, de az akusztikát is mímeli.

A Microsoft kutatói bejelentették a VALL-E szövegfelolvasó MI-modellt, ami egy mindössze három másodperces hangminta alapján képes valós személy hangját szimulálni. Így a beszélő jellegzetes tónusait megtartva bármilyen szöveges hanganyagot előállít, mintha adott személy beszéde lenne hallható. Készítői fejlett szövegfelolvasó- és szerkesztő alkalmazásként képzelik el használatát, akár olyan más generatív MI-modellekkel kombinálva, mint a szöveget generáló GPT-3.

A redmondi cég a VALL-E-ra neurális nyelvi modellként hivatkozik, ami a Meta által tavaly bejelentett EnCodec nevű tömörítési neurális hálózaton alapul. Más, a hullámformák manipulálásával dolgozó szövegfelolvasó eljárásokkal ellenben a Microsoft megoldása  audiokodek kódokat alkot a megadott szövegből és a minta akusztikus jeleiből.

microsoft_vall_e_kiemelt

Kafka és CI/CD alapozó online képzéseket indít a HWSW!

Ősszel 6 alkalmas, 18 órás Kafka és CI/CD alapozó képzéseket indít a HWSW. Most early bird kedvezménnyel jelentkezhetsz!

Kafka és CI/CD alapozó online képzéseket indít a HWSW! Ősszel 6 alkalmas, 18 órás Kafka és CI/CD alapozó képzéseket indít a HWSW. Most early bird kedvezménnyel jelentkezhetsz!

A VALL-E alapvetően kielemzi egy adott személy beszédének jellegzetességeit, az információkat az EnCodec-kel bontja különálló komponensekre, "akusztikus tokenekre", hogy létrehozza a végleges hullámformát. Amellett, hogy leköveti a beszélő hangszínét, a hangminta „akusztikus környezetét” is képes utánozni. Például, ha a mintát egy telefonhívásból vágták ki, a telefonhívás akusztikáját és frekvenciatulajdonságait is visszaadja.

A redmondi kutatók a Meta által szolgáltatott audiokönyvtár segítségével dolgoztak, ami több mint 60 ezer órányi angol nyelvű beszédet tartalmaz több mint 7000 személytől. Mivel ahhoz, hogy a VALL-E jó minőségű és élethű tartalmat hozzon létre, a hangmintának nagy egyezést kell mutatnia a kiképzéshez használt adatok valamelyikével, így a jövőben további adatokkal tervezik bővíteni az adatbázist.

A Microsoft a visszaélések miatt egyelőre nem teszi elérhetővé másoknak a tesztelést, sem a VALL-E kódját. Közleménye szerint a vállalat a jövőben saját, MI-vel kapcsolatos fejlesztésekhez kialakított irányelveit követi majd, illetve készül egy külön modell is annak meghatározására, hogy egy hangklipet a VALL-E segítségével hoztak-e létre. Jelenleg a projekt GitHub-oldalán lehet meghallgatni, hogyan muzsikál az algoritmus: egyelőre még nem tökéletes, és bizonyos klipek hallhatóan gépszerűek, de vannak valóban ijesztően valósághű eredmények is.

Áprilisi, minden munkavállaló számára kötelező, laza jogi hallgatmányunk után itt a második, befejező rész. Nem kell megijedni, informatív és hasznos lesz ez is! Ennyi a minimum, amit munkavállalóként illik tudnod.

a címlapról