Az OpenAI február elején jelentette be mozgóképek előállítására képes MI-modelljét, a Sorát (japánul: égbolt). A ChatGPT-hez hasonlóan transformer architektúrát használó diffúziós MI-modell működése meglehetősen többrétű: nem csak egyszerű szöveges promptokból tud előállítani nagyfelbontású videoklipet, de dolgozni tud állóképekből, illetve már meglévő videók képkockáit töltheti ki.

A modellhez eddig csak tesztelők kisebb csoportja férhetett hozzá, a cég a bejelentéskor még nem tett közzé elérhető, vagy kipróbálható szolgáltatást a honlapján közzétett 10 mintán túl, arra egészen mostanáig kellett várni. Végül a demó után tíz hónappal az új Sora Turbo modell bevezetése a napokban megkezdődött, de csak a ChatGPT előfizetői, tehát a ChatGPT Plus vagy Pro csomagokat használók számára első körben az Egyesült Államokban, és fokozatosan válik elérhetővé más régiókban is. Európában egyelőre még nem indult el.

Az elmúlt hónapok során a versenytársak is bemutatták saját videószintézis megoldásaikat, bemutatkozott többek közt a Google Veo és a Runway Gen-3 Alpha is, így a Sora fénye kissé tompult. Mostanra viszont már az eredetileg bejelentett képességekhez képest több előrelépés is történt, lehetséges többféle képarányban készíteni videókat, és a modell összességében gyorsabban dolgozza fel a kéréseket, mint februárban. A fejlesztők bevallása szerint azonban még hosszabb ideig tart az összetett kérések és a fizikai szimulációk létrehozása, és korántsem várható tökéletes eredmény.

A Sora jelenleg legfeljebb 20 másodperces videókat generál 1080p felbontásban szöveges vagy képes promptból, és az OpenAI egyelőre korlátozza azt, hogy embereket ábrázoló videókat állíthasson elő. A szolgáltatás indításakor személyeket ábrázoló képeket nem lehet megadni beviteli adatként a modellnek, továbbá a rendszer blokkolja a szexuális jellegű deepfake képek előállítását.

Az OpenAI egyben bővebb dokumentációt is megosztott a modell működésével kapcsolatban, illetve hogy milyen biztonsági tesztek alá vetette a technológiát, mielőtt a szélesebb közönség elé tárja. A videók alapértelmezés szerint vízjeleket kapnak, a fejlesztők pedig egy belső keresőeszközt is készítettek a Sora által generált tartalom ellenőrzésére. A platform továbbá C2PA metaadatokat ágyaz be az összes generált videóba a származás ellenőrzése céljából.

A ChatGPT Plus előfizetői havonta 50 videót készíthetnek 480p felbontásban, de a 720p-s videók generálására szánt keret szűkösebb. A nemrég bejelentett méregdrága (200 dollár havonta) Pro csomag előfizetőinek értelemszerűen jobbak a lehetőségei a felbontást és a videók hosszát tekintve. A jövő évben az OpenAI terve szerint további, rugalmasabb csomagok is elérhetővé válnak a szolgáltatáson belül.