Merészebben csap oda a CloudFlare az AI fejlesztőknek
A világ egyik legfontosabb internetes infrastruktúra-szolgáltatója elkötelezett amellett, hogy a tartalomkészítők kezébe adja vissza a hatalmat a gyakorlatilag korlátok nélkül harácsoló AI crawlerekkel szemben, ezért újabb intézkedéseket vezet be.
Napjainkban az online tartalomgyártók előtt álló egyik legkomolyabb kihívás, hogy miként tudják megvédeni a tartalmaikat attól, hogy anélkül építsék be egy nagy nyelvi modell vagy más AI-alapú rendszer tudástárába, hogy arra engedélyt kértek volna tőlük. A webet folyamatosan pásztázó botokkal szemben eddig jóformán a betyárbecsület, illetve a különböző blokkoló algoritmusok használata volt az egyetlen ellenszer, azonban az illegális módszerek szerint dolgozó botokkal szemben hosszú távon ez sem bizonyult hatékony megoldásnak, ahogy a fejlesztők egyre kifinomultabbá tették ezeket a megoldásokat.
A tartalomszolgáltatók és hálózatüzemeltetők számára komplex szolgáltatásokat (CDN, fejlett DDoS-védelem, DNS, VPN stb.) kínáló Cloudflare keddtől kezdődően az eddiginél is merészebben lép fel, és alapértelmezett blokkolási lehetőséget kínál fel az azonosított AI web crawlerek esetében a weboldalak tulajdonosainak. A szolgáltató az új domaintulajdonosokra bízza, hogy engedélyezik-e a webkaparókat, sőt a vezető kiadók és tartalomkészítők korlátozott körének elérhetővé teszi a Pay Per Crawl nevű programot, melynek keretében bevételhez és kompenzációhoz juthatnak a minőségi tartalom felhasználásáért cserébe.
A Cloudflare az AI-cégekkel is együttműködik a robotok ellenőrzésében, és tájékoztatást kért tőlük arra vonatkozóan, hogy a tartalmakat milyen célból használják fel. A weboldalak tulajdonosai ezen információk birtokában dönthetnek arról, hogy beengednék-e adott crawlert.
Ollé, lesz SYSADMINDAY! Duna melletti szabadtéri helyszínen idén is megrendezzük a hazai Sysadmindayt, az IT-üzemeltetők világnapját. Standup, IT security meetup, szakmázás, barátok, még több sörcsap.
A Cloudflare 2023-ban engedélyezte a weboldalak szűkebb körének az AI robotok blokkolását, de ez csak azokra a platformok számára vált lehetővé, amelyek a robots.txt fájljban jelezték, hogy nem szeretnék engedélyezni a botok számára a tartalom lekaparását. A lehetőségek sora tavaly bővült azzal az opcióval, hogy minden robotot blokkolni lehessen a szükséges .txt-től fájltól függetlenül egyetlen kattintással, mostantól pedig már alapértelmezett beállításként érvényes lehet a tiltás igény szerint, és nem csak bizonyos ügyfelek és kiválasztott kiadók számára, hanem tágabb körben.
A szolgáltató emellett még egy védelmi rendszert is alkalmaz pár hónapja: az AI Labirintus nevű megoldás blokkolás helyett mesterséges intelligencia által generált tartalmakkal csalogatja be a céloldalra érkező tartalomgyűjtő algoritmust olyan kamuoldalakra, melyeknek valójában semmi közük az adott oldal tényleges tartalmához.
Eddig számos nagy kiadó és online platform, köztük a The Associated Press, a The Atlantic, a Fortune, a Stack Overflow és a Quora is él a keresőrobotokra vonatkozó korlátozásokat kínáló védelmi funkciókkal, mivel a piac számára kihívást jelent, hogy egyre több a chatboton keresztül elérhető, saját tartalmaikból kinyert információ, ezzel pedig a keresőmotorokból érkező forgalom csökken. 2023-as adatok szerint a globális internetes forgalom legalább 16%-a Cloudflare-en keresztül halad át, így jelentős hatásai lehetnek ezeknek a megelőző intézkedéseknek.
Önmagukban nem magukkal a robotokkal van gond – hiszen a keresőmotorokban is így tudnak megjelenni az oldalak a tartalom indexelésével, de az AI-érában nagy kihívást jelent a csak bizonyos tevékenységet végző botok kiszűrése. A nagy nyelvi modellek fejlesztését támogató botok lekaparják a nyilvánosan elérhető adatokat a modellek betanításához anélkül, hogy feltüntenék a forrásokat, és nem fizetnek ellenszolgáltatást sem az alkotóknak. Ez oda vezethet, hogy az alkotók a szellemi termékeiket, vagy ahhoz nagyon hasonló eredményeket láthatnak viszont az AI által generált válaszokban.