Mellékleteink: HUP | Gamekapocs
Keres
Ősszel is lesz HWSW free! Alkalmazott AI meetup és agilis fejlesztői meetup a módszertanok dzsungeléből, szeptember 24-25-én.

Apple: a Siri csak béta!

Dojcsák Dániel, 2011. december 07. 10:17
Ez a cikk több évvel ezelőtt születetett, ezért előfordulhat, hogy a tartalma már elavult.
Frissebb anyagokat találhatsz a keresőnk segítségével:

Az egyszerűnek tűnő és a demókban kiválóan teljesítő beszédfelismerő algoritmusok a valóságban még igen kezdetlegesek. Az Apple azt ígérte, hogy neki működik, de ez alkalommal nem sikerült olyan nagyot alkotnia.

A Gizmodón egy hosszú írásban sajnálkozik az egyik szerkesztő, mert csalódnia kellett az Apple ígéretében. “Hosszú ideje kötöttem egy megállapodást az Apple-lel: irányíthatja a teljes technológiai életemet, a számítógépemen, a telefonomon át a hifimig. Prémium árakat fizetek, beleásom magam az ökoszisztémába, könyveket, zenét, filmeket és alkalmazásokat veszek. Még akkor is, ha ezek nem fognak semmilyen más eszközön működni. Cserébe a kontrollért és a magasabb árakért, arra számítok, hogy az Apple termékei egyszerűen csak működnek”.

Illúziók

Az iPhone 4S legfontosabb újdonságaként pozicionált Siri esetében is sokan abba az illúzióba ringatták magukat, hogy a hangfelismerés egy új korszakába ért. Az MP3-lejátszók piaca is létezett már, sok különféle eszköz volt elérhető az iPod előtt, az Apple viszont megcsinálta a legjobbat. Tabletek is léteztek, amikor az Apple előállt az iPaddel, amit még mind a mai napig nem igazán tudott befogni a piac. A Siri esetében az Apple ígérete az volt, hogy létrehozza az első, konzumer piac számára is használható mesterséges intelligenciát és tökéletesítette a hangfelismerést. Egy személyes asszisztenst ígért az okostelefonra. Több, mint egy hónap után viszont egyre többen gondolhatják úgy, hogy ez az ígéret hamis volt és egy intelligens asszisztens helyett nem kaptak mást, mint egy átlagos, valójában haszontalan terméket.

A hangutasítás, mint műfaj már jó ideje jelen van az Androidon, ráadásul egyre több nyelvet támogat, az angolból is választhatunk több nyelvjárás közül, a készülékek pedig fillérekért elérhetőek minden szolgáltatónál drága díjcsomagokra vállalt hűség nélkül is. Nem mondjuk persze, hogy egy olcsó androidos készülék egy súlycsoport lenne az iPhone 4S-sel, de a nagy durranásnak ígért funkció alig jobb és alig hasznosabb mint egy már régóta elérhető másik. Az Apple ennek ellenére minden lehetséges marketingkommunikációs csatornán a digitális asszisztens érkezését promotálja.

Nem tesztnek volt hirdetve

Ha valaki felmegy az Apple weboldalra, akkor észreveheti a béta címkét, ami a frontális kommunikációban sehol nem szerepel. Az Apple nem üzente meg a nagyközönségnek, hogy egy béta funkcióval próbálja eladni új generációs okostelefonját. A széleskörű béta a Google hagyománya, az Apple a publikus bétából eddig jobbára kihagyta a publikumot és soha nem kényszerített még rá a felhasználókra ilyen terméket és főleg nem reklámozott.

A Siri esetében persze érthető, hogy miért volt erre szükség, hiszen a teljesítmény és az algoritmusok javulásához töménytelen mennyiségű hangmintára, valós használatra és felhasználói visszajelzésre van szükség. Egy dinamikus környezetben működő hangfelismerést nem lehet szintetikusan leprogramozni, legalábbis a jelenlegi technológiai szint nem teszi ezt még lehetővé. Ha az Apple a Sirit egy kísérletként, tesztként vagy adatgyűjtésként pozicionálta volna, akkor bizonyára nem lett volna olyan óriási ováció körülötte.

A hivatalos kommunikáció aszerint azonban “a Siri intelligens asszisztenst megkérheted, hogy kezdeményezzen hívásokat, küldjön üzeneteket, állítson be emlékeztetőt és még sok minden másra”. A Gizmodo amerikai szerkesztője egy hónap után azt tapasztalja, hogy a leggyakoribb válasz, amit a Siri visszadob neki, hogy “Nem igazán értem”. A felhasználó pedig csodálkozik, hogy mi lehet a baj? Talán a kicsit “déli akcentus”, vagy az, hogy dörmög az orra alatt, nem elég hangos? Mat Honan, a Gizmodo szerzője azon is elcsodálkozott, hogy ha vele van a baj, akkor a Google Nexus vajon miért értette meg a legtöbb utasítást?

Ha a hangfelismerésen túl is lép a felhasználó, az asszisztens ígéretébe semmiképp nem fér bele az, hogy a Siri sokszor nem csak a szavakat nem érti, hanem azt sem, hogy azok mit jelentenek. A Siri gyakran buta, a nüanszok, apróságok közti különbségeket pedig egyáltalán nem érzékeli, pedig az Apple ezt ígérte. A tévéreklámban egy hölgy azt kéri, hogy mondja el az utat a Siri egy adott kórházhoz, amit az meg is tesz természetesen.

Hagyna elvérezni

A gyakorlat azt mutatja, hogy a Siri kellően jó abban, hogy értelmezzen és végrehajtson pontosan és egyértelműen megfogalmazott parancsokat, például “hívd fel Gézát!” Abban a pillanatban azonban, amikor életszerű, egy kicsivel komplexebb utasítások jönnek, akkor a Siri jó eséllyel csak a vállát vonogatja Ha nem azt kérjük tőle, hogy mutassa meg az utat a Heim Pál kórházba, hanem hogy vigyen minket a legközelebbi sürgősségire, akkor kilistázza a keresési találatokat a kifejezésre és hagy elvérezni. Arról nem is beszélve, hogy az Apple szoftvere nem számol a forgalommal és utazási idővel, így nem is tudja megmondani a leggyorsabb utat, csak a legrövidebbet. A reklámban bemutatott példa tehát igen fals, ráadásul a hirdetés arra már nem tér ki, hogy az Androiddal ellentétben az iPhone nem is navigál, csak térképet mutat, és nem is tervez újra, ha letérünk az útról. A valóság az, hogy nem csak egy veszélyben lévő ember vérzik el a Sirivel, hanem a hivatalos reklám is elvérzett az első példán.

Honan tovább kísérletezik és a Sirinek szintén a reklámból idézve azt mondja, hogy “játssz nekem Coltrane-t” (John Coltrane). A reklámban felcsendül a dal, a valóságban viszont azt mondja a Siri, hogy nem talál semmilyen “coal train”-t, azaz szénszállító vonatot. Ezek szerint a Siri mesterséges intelligenciája nem kezeli az azonos hangalakokat, nem képes kontextuálisan értelmezni hangsorokat. Ha például azt mondjuk a Sirinek, hogy “küldj a feleségemnek egy üzenetet és mondd meg neki, hogy vele szeretnék ebédelni”, a Siri a mondat elején még felismeri, hogy a névmás a feleségre vonatkozik (tell her), de az üzenetben már nem fordítja át, így az üzenetben az szerepel majd, hogy “vele” és nem az, hogy “veled”.

Alapvető dolgok bizonyítják az intelligencia hiányát

A "mindenható" asszisztens ráadásul nem képes a telefon alapvető funkcióit sem elérni, nem tudja kikapcsolni a Wi-Fit, nem tudja megnézni, hány százalékos az akkumulátor töltöttsége, nem tud elindítani vagy leállítani alkalmazásokat, leszámítva a gyáriakat és az iOS5 Twitter-integrációjának ellenére még egy twittet sem tud küldeni. Nem tudja csendesre vagy rezgőre állítani a mobilt és nem tud fényképezni se. Ha a kamera alkalmazás megnyitása után a Sirinek azt mondjuk, készítsen egy képet, akkor a válasz: “nem vagyok egy fotós típus”. Hiába lehet a névjegyzékben a személyekhez képeket rendelni ha megkérjük az iPhone 4S-t, hogy mutasson egy képet a feleségünkről, akkor a weben rákeres a “picture of my wife” kifejezésre.

Az okostelefonokon az internetelérés már szinte teljesen magától értetődő, de attól még furcsa, hogy az Apple egyetlen tájékoztató anyagban sem említi, hogy a Siri használatához élő internetkapcsolatra van szükség. Ez azt jelenti, hogy rossz vételi körülmények közt, pincékben vagy árnyékolt épületekben az asszisztens elmegy aludni. Illetve az elmúlt egy hónapban visszajelzések alapján többször is szerveroldali kimaradások voltak, ezen időszakok alatt elvileg senkinek nem működött a Siri.

Kis termék, nagy ígéret

Mindezek idegesítő apróságok és alapjában véve nem az a gond velük, hogy így működnek, hanem az, hogy az Apple meghamisította a termék képét a köztudatban és hagyja, hogy a felhasználók szenvedjenek vele. Magyarországon ezt egyelőre annyira nem érezzük, hiszen az itthoniak csak sóvárognak, hogy egyszer bizonyára magyarul is megtanul a Siri, aki pedig elég perverz ahhoz, hogy ne csak olvasson a mobiljáról egy idegen nyelven, hanem úgy is beszéljen hozzá, az valószínűleg az akcentusának tudja be a sikertelenséget. Az iPhone 4 antennabotrányban elhíresült “rosszul fogod” kifejezés következő verziója a “rosszul mondod”.

A kritika, ami teljesen jogosnak tűnik, arról szól, hogy az Apple gyakorlatilag átverte az eddig minden szavát befogadó híveit. A felhasználók felé eddig nem kellett előre bizonyítani semmit. Ha az Apple azt mondta, hogy ez a legjobb, ez a legmenőbb, ez gyors, ez akadásmentes, ez egyszerű, akkor az is volt. Most viszont visszaélt a bizalommal, a felhasználók részéről pedig jogos reakció lenne, ha legközelebb már szkepticizmussal fogadnák a bejelentéseket. A Siri intelligens, állítja az Apple. Azt viszont nem tette hozzá, hogy ez egyébként csak egy sokadik hangfelismerő program, ami előre meghatározott parancsokat fogad be. Intelligens, amennyiben tudjuk, hogy mik az utasítások, amennyiben képes azokat megérteni és amennyiben épp van adatkapcsolat.

Igaz ez még akkor is, ha az Apple Siri egészen ügyesen ismer fel számokat, szavakat egymás után. Ugyanez például a Microsoft Tellme megoldásának egyelőre még nehezére esik, a Google viszont a hangfelismerés terén hasonló szintet képvisel (köszönhetően annak, hogy a mintákat az Android mellett a YouTube, a webkereső és a Translate is szolgáltatja), igaz az Androidon elérhető funkcionalitás valamivel gyengébb. A három nagy szereplő próbálkozásai biztosan izgalmas lehetőségeket tartogat a következő években, de az intelligens asszisztenstől még messze vagyunk. A beszédfelismerő algoritmusok sokat fejlődtek az elmúlt pár évben, amelyeket a sok minta  elemzésével lehet tovább javítani, ezért próbálkozzon, játszadozzon ezekkel mindenki bátran, attól csak jobb lesz.

Facebook

Mit gondolsz? Mondd el!

Adatvédelmi okokból az adott hír megosztása előtt mindig aktiválnod kell a gombot! Ezzel a megoldással harmadik fél nem tudja nyomon követni a tevékenységedet a HWSW-n, ez pedig közös érdekünk.
Alkalmazott AI meetup és agilis fejlesztői meetup a módszertanok dzsungeléből, szeptember 24-25-én.