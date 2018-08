Több új frissítéssel érkezett a Google Cloud beszédfelismerője (Speech-to-Text) és most már a szövegfelolvasó (Text-to-Speech) API is általánosan elérhetővé vált a fejlesztők számára - írja a cég blogbejegyzése. A legfontosabb az újítások közül, hogy az online felolvasó megoldás most már 14 nyelvet támogat, de ezek közül valójában három az angol variánsa (amerikai, brit, ausztrál) és kettő a franciáé (franciaországi, kanadai), a magyar pedig még mindig nem található meg közöttük. A lehetőségek közt szerepel viszont még például a spanyol, a német, a holland, a svéd, a portugál vagy az olasz.

A rendszer által támogatott nyelveken pedig már 30 hagyományos hang és 26 WaveNet-alapú hang képes felolvasni, tehát 17 új hanggal bővült a lehetőségek köre, melyeknek teljes listája itt található. A WaveNet a Google saját DeepMind gépi tanulásra épülő technológiája, amellyel a szövegekből audiofájlokat lehet előállítani a természeteshez közelálló hangzással - a technológiáról itt lehet bővebben olvasni. A fejlesztők tehát a különböző hangokat már 14 nyelven szólaltathatják meg a saját termékeiken belül. Ahogy a VentureBeat írja, a WaveNet sokkal hatékonyabb lett az utóbbi időben, így például egy 1 másodperces mintát mindössze 50 milliszekundum alatt tud előállítani.

Ezenkívül az úgynevezett audio profilok is megérkeztek bétában, amellyel a Google megoldása az aktuálisan használt médiumhoz igyekszik igazítani az audiofájlokat. Az alapötlet, hogy a telefon hangszórója különbözik a televíziótól, de a profil optimalizálható például telefonhívásokhoz, fülhallgatókhoz, hordható eszközökhöz, autós hangszórókhoz, valamint a Google Bluetooth hangszóróihoz (Home, Home mini) és otthoni szórakoztató rendszereihez (Home Max). Főleg azoknál az eszközöknél hasznos, amelyek nem támogatnak speciális frekvenciákat, mivel ezeknél is képes a felolvasó a hangot a hallótávolságon belülre tolni, és tisztább hangot biztosítani.

Ezenkívül új béta funkciókkal is fejlődött a beszédfelismerés, amelyeket eredetileg a Google az idei Next konferencián mutatott be. A gépi tanulás technológiával a rendszer most már képes (bétában) megkülönböztetni a megszólalókat a leirat elkészítése közben. Egyelőre API paraméterként meg kell hozzá adni, hogy a mintában hány különböző beszélő található, de ez alapján a rendszer már elvégzi a címkézést, hogy melyik szót melyik megszólalóhoz tartozott. A megoldás a sztereó fájlokat is tudja egyben kezelni, ahol például egy ügyfélszolgálatos van az egyik oldalon és egy panaszos a másikon.

Szintén új funkció a különböző nyelvek támogatása, amelyet a Google Search App már eddig is támogatott, de mostantól az API-n keresztül a fejlesztők számára is elérhető. A felhasználók egyszerre legfeljebb négy különböző nyelvet választhatnak, hogy mi fog elhangzani az audiofájlban. A Speech-to-Text API felismeri, hogy éppen melyik nyelven beszélnek a megszólalók, és azon készíti el a leiratot.

Végül pedig még egy apróságnak tűnő, mégis fontos újdonság az API-ban, hogy az képes értékelni, mennyire értette meg szavakat. Ez főleg a speciális szavaknál lényeges a közlemény szerint, például ha a felhasználó lediktálja egy virtuális asszisztensnek, hogy "kérlek hozz létre egy találkozót délután 2-re Jánossal", akkor az asszisztens visszakérdezhet az időpontra vagy a névre, ha azt kevésbé értette. Azonban a "kérlek" kifejezésre a rendszer nem kérdez vissza, még akkor sem ha kevésbé volt érthető, mivel annak nincs akkora jelentősége a szövegben.

A Google Cloud Platformon belül az árazás a használat arányának megfelelő, melyhez a szövegfelolvasó innen és a beszédfelismerő pedig innen elérhető.