:

Szerző: Dömös Zsuzsanna

2025. augusztus 12. 14:20

Becsukja a kaput a Reddit az Internet Archive orra előtt

Miután a Reddit állítása szerint egyes AI-fejlesztők az internet archívumán keresztül csapolták a platform adatait, ideje becsukni ezt a kiskaput is.

További szigorításokat vezet be a Reddit annak érdekében, hogy az AI-modellek fejlesztői ne tudják tömegesen lekaparni, majd felhasználni a fórumon fellelhető beszélgetéseket és hozzászólásokat. A platform szerint „egyes cégek" úgy kerülik meg az eddig bevezetett korlátozásokat, hogy az Internet Archive Wayback Machine szolgáltatásán keresztül férnek hozzá az adatokhoz, így a következő lépés az, hogy a Reddit letiltja az Internet Archive (IA) számára a tartalmak indexelését.

Az internet archívumának is hívott szolgáltatás így a későbbiekben nem lesz képes feltérképezni az oldalakat és az ott található szöveges tartalmakat, csak a reddit.com kezdőlapját indexelheti. Ez egyben azzal jár, hogy az IA nem tudja archiválni magukat a topicokat, csupán azt, hogy mely szalagcímek és posztok voltak adott napon a legnépszerűbbek. A platform szóvivője, Tim Rathschmidt szerint ugyan az Internet Archive a nyílt webre épülő szolgáltatás, de tudomásukra jutottak olyan esetek, amikor AI-cégek megsértették a platformszabályzatokat, beleértve a Redditét is azzal, hogy adatokat gyűjtöttek a Wayback Machine-ből.

A platform felvette a kapcsolatot az Internet Archive-val, mielőtt a bejelentéssel együtt elkezdte bevezetni a korlátozásokat. Mindez nem meglepő annak fényében, hogy a Reddit egyre inkább a megállapodások felé próbálja terelni a helyzetet a kölcsönös előny érdekében. 

redditblock

Dobpergés: AI engineering demo day-jel és képzéssel is érkezünk!

3 csapat, 3 demó, avagy hogyan is használjuk az AI-t? November 17-én érkezik a demo day, 19-én pedig ez első AI képzésünk.

Dobpergés: AI engineering demo day-jel és képzéssel is érkezünk! 3 csapat, 3 demó, avagy hogyan is használjuk az AI-t? November 17-én érkezik a demo day, 19-én pedig ez első AI képzésünk.

Az MI-modellt fejlesztő legtöbb vállalat engedélykérés nélkül képzi ki termékeit a nyilvánosan elérhető tartalmak felhasználásával. Ezért egyre feszültebb a helyzet jogi és szerzői téren, így a tartalomplatformok és tulajdonosok próbálják feltételekkel tisztázni az adataik felhasználását. A Redditen található, immár két évtizede épülő párbeszéd-adatbázis különösen nagy kincs a mesterséges intelligencia megoldásokat fejlesztő cégek számára, mivel a közösségi platform mára a legkülönfélébb témák köré csoportosuló emberi párbeszéd egyik legnagyobb internetes forrásává vált.

A platform üzemeltetői korábban több, nagy nyelvi modell fejlesztő céggel, így a Google-lel és az OpenAI-val is megállapodást kötöttek a reddites tartalmak bizonyos korlátok történő feldolgozásáról, illetve hasonló tartalmú egyezséget próbált korábban kötni az Anthropic-kal, de az AI-startup nem volt nyitott az együttműködésre. 

Június elején erre válaszul szintén markánsat lépett a Reddit, amikor bíróság elé citálta a többek közt az Amazon és a Google által is támogatott, független AI-startupot, az Anthropic-ot, amiért az a bírósági beadvány szerint jogosulatlanul használta fel a reddites párbeszédeket a különböző mesterséges intelligencia modellek tanításához. A felperes állítása szerint az Anthropic botjai tavaly július óta több mint százezer alkalommal próbáltak hozzáférni a Redditen található párbeszédekhez, a cégnek pedig bizonyítéka van arra, hogy ezek egy részét fel is használta többek között a Claude chatbot mögött álló nagy nyelvi modell tanításához. 

Mindezt azután, hogy az Anthropic szintén tavaly júliusban közölte, hogy nem használja a Reddit tartalmait a nagy nyelvi modellek tanításához, figyelmen kívül hagyva az oldal kódjában található robots.txt fájl tartalmát, mely kifejezetten az automatikus adatgyűjtés megakadályozására hivatott egyfajta figyelemfelhívás.

Az ageism, vagyis az életkorral kapcsolatos előítélet és diszkrimináció az IT-ban hatványozottan jelen van, akár már 35-40 évesen is bele lehet futni.

a címlapról