:

Szerző: Dömös Zsuzsanna

2024. január 25. 14:30

Videót generál szövegből a Google Lumiere MI-modell

A szöveges promptok alapján képeket előállító generatív mesterséges intelligencia utáni lépcsőfok a videós tartalmak készítése, ami jelentős fejlődésen ment keresztül az elmúlt két év során, a sorba csatlakozik a Google Lumiere nevű megoldása.

Mesterségesintelligencia-alapú videógenerátor modellt jelentett be a Google, amit a Weizmann Tudományos Intézet és Tel Aviv Egyetem kutatóival közösen hoztak létre. A Lumiere egy tér-idő diffúziós modell, ami egyedi architektúra segítségével egyszerre generálja a létrehozni kívánt videó térbeli és időbeli modelljét (a videóban szereplő objektumok mozgását és változását). Így ahelyett, hogy sok kisebb részletet vagy képkockát illesztene össze mozgóképpé, a teljes videót az elejétől a végéig egyetlen folyamatban hozza létre, így sokkal realisztikusabb a végeredmény a már létező megoldásokhoz képesz.

Az MI-vel foglalkozó cégek sokszor azért demonstrálják technológiáikat állatokkal, mert jelenleg még nehéz koherens, nem deformált alakú embereket generálni, amelyeknek a mozgása nem tűnik természetellenesnek. A text-to-video, tehát "szövegből videót" készítő technológia egyelőre öt másodperces,1024 × 1024 pixel felbontású tartalmakat állít elő. A keresőcég nem részletezte, honnan gyűjtötte a 30 millió videót takaró képzési adatcsomagot, melyek jellemzően 80 képkockából álló, 16 fps-es videók, de vélhetően olyan nyilvánosan elérhető videótárakon keresztül, mint a YouTube.

A felhasználási lehetőségek szélesek, a modellel nem csak szöveges promptokkal lehet létrehozni videót a semmiből, de már létező állóképet is mozgóképpé konvertál, vagy már meglévő klipeket alakít át másféle stílusú megjelenítésben referenciakép segítségével. De egyelőre csak elméleti síkon lehet erről beszélni, mert a Google nem beszélt arról, hogy a modellt mikor teszi elérhetővé szélesebb közönség számára, ha egyáltalán kikerül a kísérleti stádiumból - akkor is vélhetően fizetős szolgáltatásként válhat használhatóvá.

18:27
 

Googles New Text To Video BEATS EVERYTHING (LUMIERE)

Még több videó

Kafka és CI/CD alapozó online képzéseket indít a HWSW!

Ősszel 6 alkalmas, 18 órás Kafka és CI/CD alapozó képzéseket indít a HWSW. Most early bird kedvezménnyel jelentkezhetsz!

Kafka és CI/CD alapozó online képzéseket indít a HWSW! Ősszel 6 alkalmas, 18 órás Kafka és CI/CD alapozó képzéseket indít a HWSW. Most early bird kedvezménnyel jelentkezhetsz!

A kifejezetten videókat előállító generatív MI-modellek egyelőre primitívek, de az elmúlt két évben jelentős fejlődésen ment keresztül a terület. A Google 2022-ben mutatta be első képszintézis modelljét, az Imagen Videót, ami rövid, 1280 x 768-as videóklipeket generál szöveges promptokból, hullámzó minőségű eredményekkel. Tavaly márciusban pedig a Runway startup állt elő a Gen2 videószintézis-modellel, ami kétperces klipeket tud készíteni.

A Gen-1 már meglévő videók átalakítására volt csak képes, különféle szempontok és parancsok szerint dolgozott át egy 3D-s animációt, vagy okostelefonos felvételt. Ezzel szemben a fejlettebb Gen-2-nek már semmilyen alapanyagra nincs szüksége videók létrehozásához, a felhasználónak elég megadnia pár szöveges parancsot arra vonatkozóan, milyen animációt szeretne látni. Korlátai természetesen vannak a technológiának: egyelőre rendkívül rövid klipeket készít, amelyek nem fotorealisztikusak, a minőség is hagy kivetnivalót maga után, ahogy a framerate is alacsony. Ez jellemző egyébként a már elérhető többi videós generatív MI-modellre.

A legnagyobb hazai IT kutatás adatfelvétele elindult, idén már AI kérdéssorral. Kérjük, szánj pár percet rá, ez közös érdekünk, hiszen enélkül nehéz meghozni technológiai vagy karrier döntéseket! A válaszadás anonim, illetve elérhetőek a korábbi évek eredményei is.

a címlapról

PEBBLE

2

Végleges az új Pebble órák dizájnja

2025. augusztus 15. 12:30

A márka visszakapta saját nevét, így Core 2 Duo helyett Pebble 2 Duo, a Core Time 2 helyett pedig Pebble Time 2 néven érkeznek az új órák, és véglegesek a specifikációk is.