Szerző: Dömös Zsuzsanna

2025. augusztus 12. 14:20

Becsukja a kaput a Reddit az Internet Archive orra előtt

Miután a Reddit állítása szerint egyes AI-fejlesztők az internet archívumán keresztül csapolták a platform adatait, ideje becsukni ezt a kiskaput is.

További szigorításokat vezet be a Reddit annak érdekében, hogy az AI-modellek fejlesztői ne tudják tömegesen lekaparni, majd felhasználni a fórumon fellelhető beszélgetéseket és hozzászólásokat. A platform szerint „egyes cégek" úgy kerülik meg az eddig bevezetett korlátozásokat, hogy az Internet Archive Wayback Machine szolgáltatásán keresztül férnek hozzá az adatokhoz, így a következő lépés az, hogy a Reddit letiltja az Internet Archive (IA) számára a tartalmak indexelését.

Az internet archívumának is hívott szolgáltatás így a későbbiekben nem lesz képes feltérképezni az oldalakat és az ott található szöveges tartalmakat, csak a reddit.com kezdőlapját indexelheti. Ez egyben azzal jár, hogy az IA nem tudja archiválni magukat a topicokat, csupán azt, hogy mely szalagcímek és posztok voltak adott napon a legnépszerűbbek. A platform szóvivője, Tim Rathschmidt szerint ugyan az Internet Archive a nyílt webre épülő szolgáltatás, de tudomásukra jutottak olyan esetek, amikor AI-cégek megsértették a platformszabályzatokat, beleértve a Redditét is azzal, hogy adatokat gyűjtöttek a Wayback Machine-ből.

A platform felvette a kapcsolatot az Internet Archive-val, mielőtt a bejelentéssel együtt elkezdte bevezetni a korlátozásokat. Mindez nem meglepő annak fényében, hogy a Reddit egyre inkább a megállapodások felé próbálja terelni a helyzetet a kölcsönös előny érdekében. 

redditblock

Kafka és CI/CD alapozó online képzéseket indít a HWSW!

Ősszel 6 alkalmas, 18 órás Kafka és CI/CD alapozó képzéseket indít a HWSW. Most early bird kedvezménnyel jelentkezhetsz!

Kafka és CI/CD alapozó online képzéseket indít a HWSW! Ősszel 6 alkalmas, 18 órás Kafka és CI/CD alapozó képzéseket indít a HWSW. Most early bird kedvezménnyel jelentkezhetsz!

Az MI-modellt fejlesztő legtöbb vállalat engedélykérés nélkül képzi ki termékeit a nyilvánosan elérhető tartalmak felhasználásával. Ezért egyre feszültebb a helyzet jogi és szerzői téren, így a tartalomplatformok és tulajdonosok próbálják feltételekkel tisztázni az adataik felhasználását. A Redditen található, immár két évtizede épülő párbeszéd-adatbázis különösen nagy kincs a mesterséges intelligencia megoldásokat fejlesztő cégek számára, mivel a közösségi platform mára a legkülönfélébb témák köré csoportosuló emberi párbeszéd egyik legnagyobb internetes forrásává vált.

A platform üzemeltetői korábban több, nagy nyelvi modell fejlesztő céggel, így a Google-lel és az OpenAI-val is megállapodást kötöttek a reddites tartalmak bizonyos korlátok történő feldolgozásáról, illetve hasonló tartalmú egyezséget próbált korábban kötni az Anthropic-kal, de az AI-startup nem volt nyitott az együttműködésre. 

Június elején erre válaszul szintén markánsat lépett a Reddit, amikor bíróság elé citálta a többek közt az Amazon és a Google által is támogatott, független AI-startupot, az Anthropic-ot, amiért az a bírósági beadvány szerint jogosulatlanul használta fel a reddites párbeszédeket a különböző mesterséges intelligencia modellek tanításához. A felperes állítása szerint az Anthropic botjai tavaly július óta több mint százezer alkalommal próbáltak hozzáférni a Redditen található párbeszédekhez, a cégnek pedig bizonyítéka van arra, hogy ezek egy részét fel is használta többek között a Claude chatbot mögött álló nagy nyelvi modell tanításához. 

Mindezt azután, hogy az Anthropic szintén tavaly júliusban közölte, hogy nem használja a Reddit tartalmait a nagy nyelvi modellek tanításához, figyelmen kívül hagyva az oldal kódjában található robots.txt fájl tartalmát, mely kifejezetten az automatikus adatgyűjtés megakadályozására hivatott egyfajta figyelemfelhívás.

A legnagyobb hazai IT kutatás adatfelvétele elindult, idén már AI kérdéssorral. Kérjük, szánj pár percet rá, ez közös érdekünk, hiszen enélkül nehéz meghozni technológiai vagy karrier döntéseket! A válaszadás anonim, illetve elérhetőek a korábbi évek eredményei is.

a címlapról