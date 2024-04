Akár meg is sérthette az OpenAI a YouTube szabályzatát

Az OpenAI korábban már nem kendőzte, hogy hatalmas mennyiségű, részben szerzői jogvédelem alatt álló adatot kapart össze az internetről nyilvánosan elérhető tartalmakkal saját nagy generatív modelljének betanításához, ám az adatgyűjtéssel kapcsolatban nem túl transzparens a cég. Ez egy sor jogi kérdést is magával hozott, korábban a New York Times indította el az első komoly kiadói pert azzal a váddal, hogy a cég a lap újságcikkeit jogtalanul használta fel modelljei tanításához.

Március végén újabb apropót kapott a nagy nyelvi modellek átláthatósága körül kialakult diskurzus, miután a Wall Street Journal újságírója, Joanna Stern interjút készített az OpenAI technológiai igazgatójával, Mira Muratival. A beszélgetés egyik fő témája a nemrég bemutatott, szöveges promptokból mozgóképet előállító Sora modell volt, ami videók elemzésével tanulja meg azonosítani a tárgyakat és cselekvéseket, és így képes újabb videók előállítására. Stern kérdésére, hogy ez alatt konkrétan a YouTube-ról származó videókat is lehet-e érteni, Murati azt válaszolta, hogy „nem biztos benne”, későbbi válaszaiban pedig rendre a „nyilvánosan elérhető és licencelt”, kissé homályos frázissal tért vissza.

Neal Mohan, a YouTube vezérigazgatója nemrég reagált az ügyre a Bloombergnek adott interjújában, amiben úgy fogalmaz:

ha a Sorához a YouTube-ról származó tartalmakat valóban felhasználták, az a szolgáltatási feltételek egyértelmű megsértését jelentené.

A vezető maga nem tudja megerősíteni egyelőre, hogy ez így történt-e, de ha beigazolódna a feltevés, komoly problémát jelenthet. Ahogy Mohan is rávilágított, a platformról való adatkaparást harmadik felek számára tiltja a videómegosztó szabályzata, ebbe beletartozik a videók tömeges letöltése is automatizált módszerekkel.

Eljő az első AI programozó, káprázat netán absztrakció? Devin bejelentése kapcsán megnéztük mennyit fejlődtek az IT-ban használt AI toolok az elmúlt egy évben.

Az OpenAI korábban maga is elismerte a fentebb említett ominózus interjúban, hogy szerzői jog által védett adatokat használt fel, mivel szerinte enélkül „lehetetlen” a technológia fejlesztése. A beismerést tartalmazza az Egyesült Királyság kormányának benyújtott beadvány is, amit azután nyújtott be a startup, hogy a britek egy olyan törvény beiktatását fontolják, amely korlátozná a jogvédett anyagok felhasználását az AI-fejlesztő cégek számára.

Tovább bonyolítja az ügyet, hogy a YouTube és a Google anyavállalata, az Alphabet saját MI-modellt és eszközöket fejleszt, ami valószínűsíti, hogy az Alphabet nem fogja jó szemmel nézni, ha egy rivális a szolgáltatási feltételeit megsértő módon használja fel a tartalmait, már csak azért sem, mert értelemszerűen a saját modelljeihez szeretné használni az általa birtokolt adatokat.

Az AI területén zajló fegyverkezési versenynek fontos részei az adatok, valamennyi nagy szereplő, így az Alphabet, a Microsoft, az Amazon és a Meta biztosítani szeretnék, hogy a riválisok ne férhenek hozzá az általuk felhalmozott, versenyelőnyt jelentő adathalmazokhoz. A Reddit is felismerte az ebben rejlő potenciált, és a közelmúltban évi 60 millió dolláros licencszerződést kötött a Google-lel, így a platformon létrehozott tartalmakhoz és tudásbázishoz a keresőcég férhet hozzá a mesterséges intelligencia-eszközeinek betanításához.

Egyre több médiacég köt hasonló megállapodásokat a fejlesztőkkel, az Associated Press például már partnerséget kötött az OpenAI-jal, és lehetővé teszi archívumai felhasználását képzési célokra. A Business Insidert és a Politicót birtokló német Axel Springer médiavállalat is hasonló megállapodást kötött, amelynek köszönhetően a ChatGPT által adott válaszokban forrásmegjelölések is megjelennek a cég lapjaitól származó cikkekben való információk felhasználásakor.