:

Szerző: Dömös Zsuzsanna

2023. január 11. 13:23

Bárkit képes utánozni a Microsoft szövegfelolvasó MI-je

Mindössze három másodperces minta alapján képes emberszerű beszédet generálni a redmondiak új megoldása, ráadásul a szintetizált hangfelvétel nemcsak a beszélő sajátos tónusait tartja meg, de az akusztikát is mímeli.

A Microsoft kutatói bejelentették a VALL-E szövegfelolvasó MI-modellt, ami egy mindössze három másodperces hangminta alapján képes valós személy hangját szimulálni. Így a beszélő jellegzetes tónusait megtartva bármilyen szöveges hanganyagot előállít, mintha adott személy beszéde lenne hallható. Készítői fejlett szövegfelolvasó- és szerkesztő alkalmazásként képzelik el használatát, akár olyan más generatív MI-modellekkel kombinálva, mint a szöveget generáló GPT-3.

A redmondi cég a VALL-E-ra neurális nyelvi modellként hivatkozik, ami a Meta által tavaly bejelentett EnCodec nevű tömörítési neurális hálózaton alapul. Más, a hullámformák manipulálásával dolgozó szövegfelolvasó eljárásokkal ellenben a Microsoft megoldása  audiokodek kódokat alkot a megadott szövegből és a minta akusztikus jeleiből.

microsoft_vall_e_kiemelt

Nyerd meg az 5 darab, 1000 eurós Craft konferenciajegy egyikét!

A kétnapos, nemzetközi fejlesztői konferencia apropójából a HWSW kraftie nyereményjátékot indít.

Nyerd meg az 5 darab, 1000 eurós Craft konferenciajegy egyikét! A kétnapos, nemzetközi fejlesztői konferencia apropójából a HWSW kraftie nyereményjátékot indít.

A VALL-E alapvetően kielemzi egy adott személy beszédének jellegzetességeit, az információkat az EnCodec-kel bontja különálló komponensekre, "akusztikus tokenekre", hogy létrehozza a végleges hullámformát. Amellett, hogy leköveti a beszélő hangszínét, a hangminta „akusztikus környezetét” is képes utánozni. Például, ha a mintát egy telefonhívásból vágták ki, a telefonhívás akusztikáját és frekvenciatulajdonságait is visszaadja.

A redmondi kutatók a Meta által szolgáltatott audiokönyvtár segítségével dolgoztak, ami több mint 60 ezer órányi angol nyelvű beszédet tartalmaz több mint 7000 személytől. Mivel ahhoz, hogy a VALL-E jó minőségű és élethű tartalmat hozzon létre, a hangmintának nagy egyezést kell mutatnia a kiképzéshez használt adatok valamelyikével, így a jövőben további adatokkal tervezik bővíteni az adatbázist.

A Microsoft a visszaélések miatt egyelőre nem teszi elérhetővé másoknak a tesztelést, sem a VALL-E kódját. Közleménye szerint a vállalat a jövőben saját, MI-vel kapcsolatos fejlesztésekhez kialakított irányelveit követi majd, illetve készül egy külön modell is annak meghatározására, hogy egy hangklipet a VALL-E segítségével hoztak-e létre. Jelenleg a projekt GitHub-oldalán lehet meghallgatni, hogyan muzsikál az algoritmus: egyelőre még nem tökéletes, és bizonyos klipek hallhatóan gépszerűek, de vannak valóban ijesztően valósághű eredmények is.

Milyen technológiai és munkaerőpiaci hatások érhetik a backendes szakmát? Május 8-án végre elindul az idei kraftie! meetup-sorozat is (helyszíni vagy online részvétellel).

a címlapról

Hirdetés

Security témákkal folyatódik az AWS hazai online meetup-sorozata!

2024. április 26. 00:02

A sorozat május 28-i, harmadik állomásán az AWS-ben biztonsági megoldásait vesszük nagyító alá. Átnézzük a teljes AWS security portfóliót a konténerbiztonságtól a gépi tanulásos alkalmazások védelmén át, egészen az incidenskezelésig.