:

Szerző: Dömös Zsuzsanna

2023. augusztus 9. 11:01

Nem mindenki örül az OpenAI kaparórobotjának

Webes crawlert állított csatasorba az OpenAI, ami némi módosítással távol tartható a weboldalaktól, kérdés, mennyire hatékony a védekezés.

Az OpenAI különösebb bejelentés nélkül, szép csendben útnak indította új keresőrobotját (crawler), ami a webhelyek tartalmának átfésülésével segítené a cég nagy nyelvi modelljeinek (LLM) fejlesztését. A weboldalak tulajdonosainak körében azonban hamar elégedetlenkedést váltott ki, hogy a bot elkezdte lekaparni a weboldalakon található hasznos információkat, ezért a fejlesztők a GPTBot támogatási oldalát kiegészítették a robot tevékenységét leállító megoldással, ami egy egyszerű változtatással eszközölhető az adott oldal robots.txt fájlján keresztül, vagy bizonyos IP-címek blokkolásával.

A cég szóvivője nyíltan kifejtette, hogy időszakonként nyilvánosan elérhető adatokat gyűjt az internetről a jövőbeli modellek képességeinek és pontosságának fejlesztésére, de egyértelmű útmutatót tett közzé ahhoz, hogy az üzemeltetők leállítsák a crawler hozzáférését. A keresőrobot szűri és nem gyűjt információkat olyan oldalakról, amiknek tartalma fizetőfallal védett, személyazonosításra alkalmas információkat gyűjtenek, vagy sértik az OpenAI irányelveit.

webcrawler

Jelentős megtakarítás az OpenStack Cloud Pro szerver szolgáltatással (x)

Használja ki az Openstack-alapú virtuális szervereinkre szóló 50%-os kedvezményt az első 3 hónapra - igény szerint óránkénti, havi vagy éves díjszabással!

Jelentős megtakarítás az OpenStack Cloud Pro szerver szolgáltatással (x) Használja ki az Openstack-alapú virtuális szervereinkre szóló 50%-os kedvezményt az első 3 hónapra - igény szerint óránkénti, havi vagy éves díjszabással!

Bár a beállítások némi kontrollt jelenthetnek afelett, hogy ki használhatja az interneten fellelhető nyílt tartalmakat, kérdéses, hogy a GPTBot blokkolása valójában mennyire hatékony annak megakadályozására, hogy a nagy nyelvi modellekbe bekerüljenek a nem fizetős tartalmak. Az LLM-ek és a generatív MI-platformok már korábban is többek közt masszív, hatalmas mennyiségű nyilvános adatokat tartalmazó gyűjteményekből dolgoztak, ilyen jól ismert adatkészletek a Google Colossal Clean Crawled Corpus (C4), vagy a nonprofit Common Crawl gyűjteményei, amiken keresztül a lekapart adatok már eljuthattak a ChatGPT-be vagy a Google Bardba. A Common Crawl-hoz hasonló szolgáltatások tevékenysége szintén a robots.txt fájlon keresztül blokkolható.

Tavaly az Egyesült Államok fellebviteli bírósága egyértelműsítette, hogy az interneten nyilvánosan hozzáférhető adatok lekaparása nem sérti a a számítógépes csalásról és visszaélésről szóló törvényt (CFAA). Ennek ellenére a mesterséges intelligencia betanítására irányuló adatkaparási gyakorlatokat az elmúlt évben több fronton is támadás érte, júliusban két pert indítottak az OpenAI ellen. A San Francisco-i szövetségi bíróságon landoló egyik ügy szerint az OpenAI törvénytelenül másolta könyvek szövegeit anélkül, hogy beleegyezést kért volna a szerzői jogok tulajdonosaitól, egy másik vád szerint pedig a ChatGPT és a DALL-E az adatvédelmi törvényeket megsértve gyűjti az emberek személyes adatait az internetről.

A jobb időkben Twitternek hívott X, valamint a Reddit már lépéseket is tett abba az irányba, hogy korlátozza a hozzáférést a saját adatkészleteihez, előbbi  korlátozta a megtekinthető tweetek számát, és ideiglenes megtiltotta a tweetek megtekintését a be nem jelentkezett internetezők számára. A Reddit a külsős fejlesztők előtt csukta be addig elérhető, adatkaparászáshoz használható API-készleteit, amik már magas díj ellenében használhatók csak.

Duna melletti szabadtéri helyszínen, a Budapest Gardenben idén is megrendezzük a hazai Sysadmindayt, az IT-üzemeltetők világnapját. Standup, IT security meetup, kvízek, szakmázás, barátok, még több sörcsap.

a címlapról

Hirdetés

Ollé, lesz SYSADMINDAY!

2025. július 12. 11:16

Duna melletti szabadtéri helyszínen, a Budapest Gardenben idén is megrendezzük a hazai Sysadmindayt, az IT-üzemeltetők világnapját. Standup, IT security meetup, kvízek, szakmázás, barátok, még több sörcsap.