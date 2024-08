Az Nvidia is összelopkodta az adatokat az AI-hoz

Az OpenAI korábban már nem kendőzte, hogy hatalmas mennyiségű, részben szerzői jogvédelem alatt álló adatot kapart össze az internetről nyilvánosan elérhető tartalmakkal saját nagy generatív modelljének betanításához, ám az adatgyűjtéssel kapcsolatban nem túl transzparens a cég. A gyakorlat nem csak és kizárólag a startuphoz fűződik, hanem egy tágabb iparági trendet mutat: a jelek szerint az Nvidia szintén szerzői joggal védett tartalmakat gyűjtött össze saját technológiája képzéséhez.

A 404 Media birtokába jutott belsős dokumentumok szerint a lassan 2,4 billió dollárt érő AI-óriás arra kérte dolgozóit, hogy töltsenek le videókat a YouTube-ról, a Netflixről és más adatkészletekből a kereskedelmi AI-projektek fejlesztéséhez. Az összekapart videókat többek közt olyan modellek kifejlesztéséhez használták fel, mint az Omniverse 3D-s generátor.

A chipgyártó-óriás közleménye szerint a kutatás teljes mértékben megfelel a szerzői jogi törvényekben előírtaknak. A YouTube szóvivője viszont nem ért ezzel egyet, a videós platform a szabályzat megsértésének tekinti a videók tömeges lekaparását és felhasználását.

Az AI területén zajló fegyverkezési versenynek fontos részei az adatok, valamennyi nagy szereplő, így az Alphabet, a Microsoft, az Amazon és a Meta biztosítani szeretnék, hogy a riválisok ne férhenek hozzá az általuk felhalmozott, versenyelőnyt jelentő adathalmazokhoz. A Reddit is felismerte az ebben rejlő potenciált, és a közelmúltban évi 60 millió dolláros licencszerződést kötött a Google-lel, így a platformon létrehozott tartalmakhoz és tudásbázishoz a keresőcég férhet hozzá a mesterséges intelligencia-eszközeinek betanításához.

Egyre több médiacég köt hasonló megállapodásokat a fejlesztőkkel, az Associated Press például már partnerséget kötött az OpenAI-jal, és lehetővé teszi archívumai felhasználását képzési célokra. A Business Insidert és a Politicót birtokló német Axel Springer médiavállalat is hasonló megállapodást kötött, amelynek köszönhetően a ChatGPT által adott válaszokban forrásmegjelölések is megjelennek a cég lapjaitól származó cikkekben való információk felhasználásakor.