Szerző: Dojcsák Dániel

2009. január 19. 13:21

Bukás a magyar Google News

A HWSW kipróbálta, kifacsarta az immár magyarul is tudó Google hírszolgáltatást, az eredmény viszont alulmúlja a várakozásokat. Sőt, az angol verzióval kapcsolatos korábbi pozitív feltételezések is megkérdőjelezhetővé váltak a tapasztalatok miatt.

A Google karácsonyi ajándéka Magyarország számára 2008-ban a News lokalizációja volt. A hónapok óta folyó előzetes munkálatok eredményeképp több mint 200 hírforrást szemléz és szervez listába a Google sajtófigyelő szolgáltatása. A HWSW kipróbálta, kifacsarta kissé a szolgáltatást, az eredmény viszont messze alulmúlja a várakozásokat, sőt, az angol verzióval kapcsolatos korábbi pozitív feltételezések is megkérdőjelezhetővé váltak a tapasztalatok miatt.

Hírek címlapról, RSS-ből és keresőkből

A magyar internetes világ fő mozgatórugói mindig is a tartalmak voltak -- az online szolgáltatások, elektronikus kereskedelem a cseh és a lengyel piacokhoz képest (az amerikaihoz képest meg főleg) viszonylag fejletlenek maradtak. Így nem csoda, hogy több hírkereső szolgáltatás is kinőtte magát itthon, illetve viszonylag nagy számú online médium képes ellubickolni a hazai pocsolyában. A Hírkeresőhöz és Hírstarthoz hasonló hírgyűjtő oldalak nagy népszerűségre tettek szert az elmúlt években, s az online lapok forgalmának jelentős részét hozzák -- egyes esetekben akár a látogatók 80 százaléka is érkezhet hírkeresőkből.


Alapkiszerelés

Emellett komoly látogatóforrás a webkeresők, a Magyarországon sok szolgáltató által használt Google kereső találati listája. Különböző kulcsszavakra keresve szinte bizonyos, hogy a témában született újságcikkek is szép számmal lesznek a találatok között. A hazai médiapiacon az oldalak a látogatók 25-50 százalékát köszönhetik a Google-nek, ami a korábban megjelent hírek, cikkek látogatottságát növeli.

News -- Hírek

A Google News valahogy ennek a két kategóriának lehetne a keveréke, hiszen a szolgáltatás a keresőrobotok által felnyalábolt híreket listázza ki, tehát nem egy külön rendszert hozott létre a hírek keresésére a Google, hanem a meglévő erőforrásokat használta. A Google keresőben korábban is indíthattunk olyan keresést, mely csak az adott domain-tartományra szűkít, illetve megadott idősávban keresve időrendben jeleníti meg a találatokat. Akik médiafigyeléssel foglalkoznak, azok számára ez utóbbi nyilván nem újdonság, napi rendszerességgel használták eddig is. Az újdonság -- elméletileg -- csupán a rendezettség és a szervezett megjelenítés.

[+] Megjött a Google News

A szemlézett oldalak listáját szerkesztőségünk ugyan megpróbálta elkérni a Google-től, de a szűkszavú válasz csupán annyit tartalmazott, hogy "nem hozzuk nyilvánosságra ezt a listát". Így csupán az a gagyinak tűnő módszer maradt, hogy az "a" szóra keresve kilistáztattuk mind a 109 ezer találatot, amit magyar nyelven a cikk megírásának pillanatában a Google Hírek felsorakoztatott.

Van itt minden

A klasszikusnak nevezhető online médiumok közül egy sem hiányzott: megvolt az Index, az Origo, a Hírszerző, a Zoom, a Ma.hu és a többiek sem hiányoztak. A második nagy csoportba a nyomtatott őssel rendelkező lapok tartoznak, mint a Népszabadság, Népszava, Magyar Nemzet, Metropol, Szabad Föld, Nemzeti Sport, 168 Óra, Magyar Kurír, Napi Gazdaság, Világgazdaság, HVG és FigyelőNet. Politikai lapok közül teljes spektrumban megtalálhatóak a regionális és városi napilapok Pécstől Nyíregyházáig, sőt, helyet kaptak határon túli lapok is, mint az Erdély Ma, illetve a pozsonyi Új Szó is.


Tematikus leosztás

A nyomtatott lapok online mutációihoz hasonlóan az elektronikus médiumok online-jai is megvannak. A kereskedelmi (RTL, Echo, ATV, HírTV) és közszolgálati (Híradó) tévécsatornák oldalai mellett a netes hírportállal rendelkező rádiók, mint az MR1, MR2, Inforádió, Gazdasági Rádió vagy a Szent Korona Rádió anyagai is feltűnnek a Google Hírekben. Igaz ez a lista már foghíjasabb, olyan "nagy" nevek hiányoznak belőle, mint a TV2 tenyek.hu oldala. Van több olyan oldal, mely alkalmanként felbukkan, de nem frissül rendszeresen. A bulvár lista is főképp a Bors, Blikk, Velvet trióra korlátozódik, bár érdekes módon a Szórakozás kategória hírei között nagyon keresni kell őket, mert gyakran a gazdasági lapok melléktermékeként létrejövő, többnyire elavult kulthírek elnyomják őket.

Aki kimarad, lemarad?

A tematikus oldalak, mint autós, kulturális vagy orvosi lapok szintén elég rendszertelenül kerültek be a Google Hírekbe, de az informatikai lapok között is vegyes a kép. Az egyik legnagyobb hazai szereplő, a Prohardver lapcsalád hírei például teljesen esetlegesen szerepelnek a listákban, néha napokig semmi, aztán 1-2 hír becsepeg. Tudomásunk szerint ennek oka egyszerű technikai probléma, melyet az érintett szerkesztőség is jelzett a Google felé. A hiba elhárítása nyilván folyamatban van, de ettől függetlenül érthetetlen, hogy miért nem jelenik meg több olyan hírforrás, amit egyébként indexel a Google kereső is, s a találati listában meg is jelenik.

Előfordulhat, hogy vannak oldalak (mint a TV2.hu, tenyek.hu), amelyek tartalma szintén nem frissül a Google Hírekben, de az adott cégnél ez valószínűleg senkinek nem szúrt szemet, ezért nem is jelezték a Google felé. Ilyenkor jön rosszul, hogy a "felvételi" folyamat szinte teljesen automatikus volt, a lapok semmilyen értesítést sem kaptak arról, hogy bekerültek a szemlézettek közé. Amelyik médium észreveszi, hogy bent van és nem szeretné ezt, vagy ha észreveszi, hogy nincs bent és szeretne bekerülni, az a Google News oldalain található útmutatást és linkeket követve bármikor változtathat helyzetén.

[oldal:Kicsit beszélni mádzsár]

Aki eddig is használta az angol nyelvű Google News-t, annak a magyar sem lesz új, bár a lokalizált változatban számos apróságra lehet figyelmes a szemfüles felhasználó. A legtöbb hiba bizonyára a magyar nyelv sajátos szintaxisában és a többi támogatott nyelvtől való eltéréséből ered. A Google algoritmusokat alapjában véve angol nyelvre készítették el, majd ezt optimalizálták tovább a bevont további nyelvekre is.

A magyar nyelv viszont nem csak az emberek számára, de a robotoknak is komoly kihívás, annyi energiát pedig nem ér meg a 3 millió magyar internetező, hogy tökélyre fejlesszék a mesterséges intelligenciát. Éppen ezért gyakran előfordul, hogy egyes hírek kiesnek a klaszterből, vagy gyakran olyan híreket csoportosít egybe a Google Hírek, melyeknek valójában alig van köze egymáshoz, s a tesztelés alatt arra is többször volt példa, hogy a Nemzetközi rovatban sorozatosan magyarországi hírek jelentek meg.

Kedvez a bulvárnak

Másik gyenge pontja a Híreknek a relevancia-kalkuláció. Mivel a felületen megjelenő hírek kiválasztása, rangsorolása, elhelyezése automatikusan történik, ezért gyakran vicces vagy inkább szánalmas anomáliák keletkeznek. Az elmúlt napokban a nemzetközi és hazai médián is vágigsöprő, később tévedésnek vagy félreértésnek bizonyuló hír, amely szerint két Google-keresés annyi energiát igényel mint egy kanna víz felforralása, másfél napig címlapsztori volt a Hírekben, pusztán azért, mert 40 felett volt a médiumok száma, amelyek lehozták. Nyilván egy gép 2008-ban képtelen szemantikai szűrésre, de ennek hiánya, pusztán a kulcsszavas klaszterezés nagyon félrevezető lehet egy kis elemszámú médiapiacon, mint a magyar.


A pletyka, az menő!

Peresztegi Zoltán, a Google hazai képviselője korábban a Hírekről azt nyilatkozta, hogy az egyik jó tulajdonsága, hogy kedvez a kisebb lapoknak is, hiszen csak az számít, hogy mi jelenik meg. Ez valóban így lenne, de igazság szerint tematikától függetlenül ugyanazokat a többnyire sokat linkelt általános hírportálok láthatók az ajánlóban, amiket a Google "szeret". Így fordulhat elő, hogy a Hírek egy bulvárlapról ajánl egy szakmai hírt, vagy egy gazdasági lap hobbi-kultúra rovatából egy filmkritikát.

Bevezetés az újságírásba: A Ctrl-c Ctrl-v használata

A csokorba gyűjtött hírek vizsgálatakor újabb medöbbentő meglepetések érhetik az alapos felhasználót. Nem újdonság a hazai médiában, hogy a valós tartalomkészítés helyett sokan a "ctrl-c ctrl-v" módszerrel írnak újságot. Akit érdekel ez a téma, annak jó eszköz lehet ez az egyes hírek követésére, de aki csak olvasgatni járna a Hírekre, az könnyen hamis képet kaphat a médiaviszonyokról. Alapesetben egy klaszterre kattintva egy relevancia alapján sorrendbe állított, szűkített listát kapunk, melyben elméletileg nem szerepelnek a másolatok. Az, hogy melyik médium hová kerül a listában azt a normál keresőknél is használt szempontok határozzák meg. Nem számít viszont a megjelenés ideje.


Aki nem a közleményt másolja, kiesik a sorból

Így fordulhatott elő, hogy a Világgazdaság a HWSW-től szó szerint átvett egy cikket, a Google Hírek mégis a HWSW-n 6 órával korábban megjelent eredeti anyagot minősítette másolatnak annak ellenére, hogy a Világgazdaság anyagában még link is mutatott oldalunkra. Sőt, több esetben előfordult az is, hogy egy átvett cikknél a másolat volt a kiemelt a klaszterben, az eredeti pedig teljesen hiányzott a Hírekről. Szerkesztőségünk úgy tudja, hogy a Google háza táján is érzik, hogy nem sikerült annyira jól a bevezetés, valószínűleg a nyelvi sajátosságok, az eltérő karaktertábla fekteti meg a robotokat -- szerintünk azért nincs még magyar nyelvű támogatás a Google Translate-hez sem, mert vállalhatatlan lenne.

Se profinak, se műkedvelőnek nem való

A napi informálódásra tehát egyelőre alkalmatlan a magyar Google, arra viszont elméletileg jó lenne, hogy ha valaki egy konkrét témában keresgél, folyamatokat akar végigkövetni, akkor a Google keresőjétől megszokott könnyedséggel böngészhessen a cikkek között. Viszont a tapasztalat az, hogy a Google Hírek konkrét kereséseknél messze nem olyan hatékony, kevesebb írást talál meg, nem átlátható, nehezebben kezelhető, mint mondjuk a Hírkereső.hu. A példa kedvéért: e cikk megírásakor a "google" kulcsszóra a Hírkereső 254 találatot adott az elmúlt 1 hónap anyagaiblól, míg a Google Hírek mindössze 133-at.

A hazai változat próbája után komolyan át kellett értékelni az eredeti hírgyűjtéseit is, hiszen ott ugyan több ezer forrás van, és egyszerűbb a nyelv, de az adott témán belül releváns forrás kiválasztása ott sem megy jobban az algoritmusoknak. Aki hiteles információkat szeretne, annak a News egy kiindulási alap, ahol az olvasó megtalálhatja a forrásokat, kereshet, bejárhatja a piacot, majd az igényesebbek felszerelik RSS olvasójukat a kiválasztott médiumok feedjeivel és onnan tájékozódnak, ha már a címlapról olvasást elavultnak tartják.


Speciális keresés

Amit előnyként lehet mégis megemlíteni, az a testreszabhatóság. Kihelyezhetünk ugyanis saját kulcsszavakra hangolt dobozokat. Amennyiben a megadott kulcsszavak mindegyike szerepel egy cikkben, akkor megjelenik majd a saját listában. A szokásos keresési paraméterekkel lehet szűkíteni is, de ehhez nem árt ismerni is ezeket a parancsokat, mert itt nincs "speciális keresés" gomb a gyengébbek kedvéért.

Csalódás

Összegezve az elmúlt egy hónap tapasztalatait, az látszik, hogy a magyar lokalizáció egyelőre sem professzionális, sem hétköznapi használatra nem alkalmas, mint "automata újság". Akik médiafigyelőként szeretnék használni a Híreket, azok számára riasztó lehet, hogy egyes oldalak hírei nem, vagy csak esetlegesen kerülnek be, illetve az, hogy a jól hagnzó 200 forrás valójában erősen hiányos. Azok, akik a Hírkeresőt vagy éppen a főoldalak végigklikkelését váltanák le a mindennapokban, azoknak a relevancia-problémák szúrnak majd szemet.

Ha maradunk az IT/Tudomány tematikánál, akkor az elmúlt egy hetet nézve szinte minden fontos eseményről lemaradtunk volna, ha csak Google Hírekre hagyatozunk -- persze ebben a magyar sajtó is ludas, hiszen sokszor a teljesen érdektelen és irreleváns, de bulvárosan hangzó hírek futnak végig a médiavilágon, közben a lényeges dolgok elsikkadnak. Ha másra nem, a magyar News arra mindenképpen jó a jelenlegi formájában, hogy mindenki átlássa, hogyan járnak tucatjával lapról-lapra ugyanazok a sajtóközlemények vagy MTI-anyagok.

Nagyon széles az a skála, amin az állásinterjú visszajelzések tartalmi minősége mozog: túl rövid, túl hosszú, semmitmondó, értelmetlen vagy semmi. A friss heti kraftie hírlevélben ezt jártuk körül. Ha tetszett a cikk, iratkozz fel, és minden héten elküldjük emailben a legfrissebbet!

a címlapról