Becsukja a kaput a Reddit az Internet Archive orra előtt
Miután a Reddit állítása szerint egyes AI-fejlesztők az internet archívumán keresztül csapolták a platform adatait, ideje becsukni ezt a kiskaput is.
További szigorításokat vezet be a Reddit annak érdekében, hogy az AI-modellek fejlesztői ne tudják tömegesen lekaparni, majd felhasználni a fórumon fellelhető beszélgetéseket és hozzászólásokat. A platform szerint „egyes cégek" úgy kerülik meg az eddig bevezetett korlátozásokat, hogy az Internet Archive Wayback Machine szolgáltatásán keresztül férnek hozzá az adatokhoz, így a következő lépés az, hogy a Reddit letiltja az Internet Archive (IA) számára a tartalmak indexelését.
Az internet archívumának is hívott szolgáltatás így a későbbiekben nem lesz képes feltérképezni az oldalakat és az ott található szöveges tartalmakat, csak a reddit.com kezdőlapját indexelheti. Ez egyben azzal jár, hogy az IA nem tudja archiválni magukat a topicokat, csupán azt, hogy mely szalagcímek és posztok voltak adott napon a legnépszerűbbek. A platform szóvivője, Tim Rathschmidt szerint ugyan az Internet Archive a nyílt webre épülő szolgáltatás, de tudomásukra jutottak olyan esetek, amikor AI-cégek megsértették a platformszabályzatokat, beleértve a Redditét is azzal, hogy adatokat gyűjtöttek a Wayback Machine-ből.
A platform felvette a kapcsolatot az Internet Archive-val, mielőtt a bejelentéssel együtt elkezdte bevezetni a korlátozásokat. Mindez nem meglepő annak fényében, hogy a Reddit egyre inkább a megállapodások felé próbálja terelni a helyzetet a kölcsönös előny érdekében.
Kafka és CI/CD alapozó online képzéseket indít a HWSW! Ősszel 6 alkalmas, 18 órás Kafka és CI/CD alapozó képzéseket indít a HWSW. Most early bird kedvezménnyel jelentkezhetsz!
Az MI-modellt fejlesztő legtöbb vállalat engedélykérés nélkül képzi ki termékeit a nyilvánosan elérhető tartalmak felhasználásával. Ezért egyre feszültebb a helyzet jogi és szerzői téren, így a tartalomplatformok és tulajdonosok próbálják feltételekkel tisztázni az adataik felhasználását. A Redditen található, immár két évtizede épülő párbeszéd-adatbázis különösen nagy kincs a mesterséges intelligencia megoldásokat fejlesztő cégek számára, mivel a közösségi platform mára a legkülönfélébb témák köré csoportosuló emberi párbeszéd egyik legnagyobb internetes forrásává vált.
A platform üzemeltetői korábban több, nagy nyelvi modell fejlesztő céggel, így a Google-lel és az OpenAI-val is megállapodást kötöttek a reddites tartalmak bizonyos korlátok történő feldolgozásáról, illetve hasonló tartalmú egyezséget próbált korábban kötni az Anthropic-kal, de az AI-startup nem volt nyitott az együttműködésre.
Június elején erre válaszul szintén markánsat lépett a Reddit, amikor bíróság elé citálta a többek közt az Amazon és a Google által is támogatott, független AI-startupot, az Anthropic-ot, amiért az a bírósági beadvány szerint jogosulatlanul használta fel a reddites párbeszédeket a különböző mesterséges intelligencia modellek tanításához. A felperes állítása szerint az Anthropic botjai tavaly július óta több mint százezer alkalommal próbáltak hozzáférni a Redditen található párbeszédekhez, a cégnek pedig bizonyítéka van arra, hogy ezek egy részét fel is használta többek között a Claude chatbot mögött álló nagy nyelvi modell tanításához.
Mindezt azután, hogy az Anthropic szintén tavaly júliusban közölte, hogy nem használja a Reddit tartalmait a nagy nyelvi modellek tanításához, figyelmen kívül hagyva az oldal kódjában található robots.txt fájl tartalmát, mely kifejezetten az automatikus adatgyűjtés megakadályozására hivatott egyfajta figyelemfelhívás.