:

Szerző: Dömös Zsuzsanna

2023. augusztus 9. 11:01

Nem mindenki örül az OpenAI kaparórobotjának

Webes crawlert állított csatasorba az OpenAI, ami némi módosítással távol tartható a weboldalaktól, kérdés, mennyire hatékony a védekezés.

Az OpenAI különösebb bejelentés nélkül, szép csendben útnak indította új keresőrobotját (crawler), ami a webhelyek tartalmának átfésülésével segítené a cég nagy nyelvi modelljeinek (LLM) fejlesztését. A weboldalak tulajdonosainak körében azonban hamar elégedetlenkedést váltott ki, hogy a bot elkezdte lekaparni a weboldalakon található hasznos információkat, ezért a fejlesztők a GPTBot támogatási oldalát kiegészítették a robot tevékenységét leállító megoldással, ami egy egyszerű változtatással eszközölhető az adott oldal robots.txt fájlján keresztül, vagy bizonyos IP-címek blokkolásával.

A cég szóvivője nyíltan kifejtette, hogy időszakonként nyilvánosan elérhető adatokat gyűjt az internetről a jövőbeli modellek képességeinek és pontosságának fejlesztésére, de egyértelmű útmutatót tett közzé ahhoz, hogy az üzemeltetők leállítsák a crawler hozzáférését. A keresőrobot szűri és nem gyűjt információkat olyan oldalakról, amiknek tartalma fizetőfallal védett, személyazonosításra alkalmas információkat gyűjtenek, vagy sértik az OpenAI irányelveit.

webcrawler

Nyerd meg az 5 darab, 1000 eurós Craft konferenciajegy egyikét!

A kétnapos, nemzetközi fejlesztői konferencia apropójából a HWSW kraftie nyereményjátékot indít.

Nyerd meg az 5 darab, 1000 eurós Craft konferenciajegy egyikét! A kétnapos, nemzetközi fejlesztői konferencia apropójából a HWSW kraftie nyereményjátékot indít.

Bár a beállítások némi kontrollt jelenthetnek afelett, hogy ki használhatja az interneten fellelhető nyílt tartalmakat, kérdéses, hogy a GPTBot blokkolása valójában mennyire hatékony annak megakadályozására, hogy a nagy nyelvi modellekbe bekerüljenek a nem fizetős tartalmak. Az LLM-ek és a generatív MI-platformok már korábban is többek közt masszív, hatalmas mennyiségű nyilvános adatokat tartalmazó gyűjteményekből dolgoztak, ilyen jól ismert adatkészletek a Google Colossal Clean Crawled Corpus (C4), vagy a nonprofit Common Crawl gyűjteményei, amiken keresztül a lekapart adatok már eljuthattak a ChatGPT-be vagy a Google Bardba. A Common Crawl-hoz hasonló szolgáltatások tevékenysége szintén a robots.txt fájlon keresztül blokkolható.

Tavaly az Egyesült Államok fellebviteli bírósága egyértelműsítette, hogy az interneten nyilvánosan hozzáférhető adatok lekaparása nem sérti a a számítógépes csalásról és visszaélésről szóló törvényt (CFAA). Ennek ellenére a mesterséges intelligencia betanítására irányuló adatkaparási gyakorlatokat az elmúlt évben több fronton is támadás érte, júliusban két pert indítottak az OpenAI ellen. A San Francisco-i szövetségi bíróságon landoló egyik ügy szerint az OpenAI törvénytelenül másolta könyvek szövegeit anélkül, hogy beleegyezést kért volna a szerzői jogok tulajdonosaitól, egy másik vád szerint pedig a ChatGPT és a DALL-E az adatvédelmi törvényeket megsértve gyűjti az emberek személyes adatait az internetről.

A jobb időkben Twitternek hívott X, valamint a Reddit már lépéseket is tett abba az irányba, hogy korlátozza a hozzáférést a saját adatkészleteihez, előbbi  korlátozta a megtekinthető tweetek számát, és ideiglenes megtiltotta a tweetek megtekintését a be nem jelentkezett internetezők számára. A Reddit a külsős fejlesztők előtt csukta be addig elérhető, adatkaparászáshoz használható API-készleteit, amik már magas díj ellenében használhatók csak.

Milyen technológiai és munkaerőpiaci hatások érhetik a backendes szakmát? Május 8-án végre elindul az idei kraftie! meetup-sorozat is (helyszíni vagy online részvétellel).

a címlapról

Hirdetés

Security témákkal folyatódik az AWS hazai online meetup-sorozata!

2024. május 3. 06:11

A sorozat május 28-i, harmadik állomásán az AWS-ben biztonsági megoldásait vesszük nagyító alá. Átnézzük a teljes AWS security portfóliót a konténerbiztonságtól a gépi tanulásos alkalmazások védelmén át, egészen az incidenskezelésig.