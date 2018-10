Már 9 millió elavult, vagyis 404-es hivatkozásra vagy nem található oldalra mutató linket állított helyre a Wikipédia az Internet Archive segítségével az elmúlt három évben - számol be róla az archívum blogja. Az online enciklopédia egyik legnagyobb problémája ugyanis, hogy a szócikkek készítésekor vagy módosításakor még megfelelő forrásokra mutató hivatkozások idővel már nem elérhetőek, emiatt pedig a felhasználók sem tudják ellenőrizni a szócikk információinak helyességét, illetve nem tudnak tovább olvasni a témában. A probléma annyira akut, hogy nem csak a kisebb oldalakat érinti, hanem például egy 2013-as adat szerint a legfelsőbb bírósági határozatokban található hivatkozások 49 százaléka sem elérhető. Kézenfekvő módon az Internet Archive és a Wikipédia összefogott, hogy a két szervezet kidolgozzon egy megoldást a helyzetre.

Az Internet Archive egy nonprofit digitális könyvtár, amely 1996 óta őriz meg másolatokat a weboldalakról, így már 338 milliárd archív oldal található meg a gyűjteményében, köztük a Wikipédia hivatkozáshoz tartozó eltávolított források is. Sőt, az elmúlt 5 évben a szervezet kifejezetten azon dolgozott, hogy a Wikipédiához tartozó 300 különböző oldalon közel minden URL hivatkozást archiváljon a linkek hozzáadásakor vagy megváltoztatásakor, ami egyébként nagyjából heti 20 millió URL-t jelent.

Ezzel párhuzamosan pedig a Wikipédiához tartozó InternetArchiveBot (röviden: IABot) szoftver már három éve 22 nyelven pásztázza a törött linkeket a webes archívumban, és ha ilyet talál, akkor megkeresi annak megfelelőjét az archívumhoz tartozó, teljesen nyilvánosan is kereshető Wayback Machine rendszerben. Majd az IABot kicseréli az elavult linket az Internet Archive adatbázisában található, lementett oldalra mutató hivatkozásra. A bot a működése óta már 6 millió 404-es külső oldalra mutató hivatkozást cserélt ki, miközben a Wikipédia önkéntesei pedig manuálisan 3 millió linket javítottak a Wayback Machine segítségével.

Tíz napja a Wikimédia Alapítvány a hivatkozások használatát vizsgáló kutatás keretében elkezdte mérni a külső linkekre mutató átkattintások arányát is (az angol nyelvű Wikipédián), melynek előzetes eredményei szerint a Wayback Machine a legnépszerűbb célforrása az online enciklopédia felhasználóinak. Az archívum háromszor népszerűbb mint a sorban következő books.google.com oldal, pontosabban pedig a felhasználók napi átlag 25 ezer alkalommal kattintanak át a Wikipédiáról a Wayback Machine oldalra.

A közlemény szerint a Wikipédia több következtetést is levont az archiválással kapcsolatban, méghozzá, hogy minden egyes forrást minél előbb le kell menteni, még mielőtt a link eltörne. Azonban a 404-es vagy 500-as hiba (vagyis a "link rot") csak a probléma egyik részét képezi, de a tartalmak teljesen meg is változhatnak a hivatkozott oldalakon (ez a "content drift" jelenség), ami talán még súlyosabb. Utóbbi esetben ugyanis a felhasználók nem feltétlen érzékelik, hogy nem az eredeti tartalommal találkoznak a megadott hivatkozáson.

Annak érdekében, hogy a Wikipédián lévő források továbbra is megbízhatóak legyenek, az Internet Archive szeretné kiterjeszteni a tevékenységét, és még gyorsabban reagálni az elavult hivatkozásokra. Úgyhogy a külső forrásokat mostantól a Wikimédia Alapítvány EventStreams webszolgáltatásán keresztül ellenőrzi, az archívumot pedig más forrásokra is igyekszik kiterjeszteni, köztük például digitális könyvekre, tudományos publikációkra és még több weboldalra. Ezenkívül a szervezet új funkciókkal is kísérletezik, hogy a felhasználóknak és a szócikkek szerkesztőinek egyszerűbb legyen használni az archívumot. A törekvés pedig nemzetközi szintű, tehát a magyar nyelvű Wikipédián szintén szeretné előbb-utóbb biztosítani az Internet Archive, hogy minden régebbi tartalom is elérhető legyen az archívumon keresztül.