:

Szerző: Dömös Zsuzsanna

2026. április 23. 11:45

Jobban bánik a szöveges képekkel a ChatGPT Images 2.0

A ChatGPT-be integrált Images 2.0 képes értelmezni a komplex utasításokat, és nem egyszerűen vizuális outputokat állít elő, hanem értelmez, megtervez és kontextusba helyez.

Az OpenAI tavaly szeptember végén kezdte el széles körben bevezetni a korábban csak meghívásos alapon elérhető Sora nevű mobilalkalmazását, mely kevesebb mint öt nap alatt elérte az egymillió letöltést, ezzel pedig hamarabb sikerült átlépnie a jelentős mérföldkövet a szintén gyorsan berobbanó ChatGPT-nél is. Március végén már arról lehetett hallani, hogy az erős rajtot erős visszaesés követte, és a cég teljesen leállítja a szolgáltatást, mivel a vállalati használatra kész főtermékeinek portfóliójára szeretne koncentrálni.

Épp egy hónappal később az OpenAI új képgenerátort integrál a ChatGPT-be, amivel egyértelműen üzeni, hogy a Sora-videók és a Studio Ghibli ihlette mémek időszakának leáldozott. A ChatGPT Images 2.0-val láthatóan komolyabb tervei vannak a cégnek, mivel az elsődleges fókusz a szöveges képek, infografikák, poszterek, tanulmányi útmutatók és marketinganyagok generálására helyeződött át. Ahogy a fejlesztők fogalmaznak, a cél a „gazdaságilag értékes kreatív feladatok” elvégzésére képes eszköz biztosítása a felhasználók számára, és egy valódi kreatív asszisztens megvalósítása.

Az OpenAI épp március végén beszélt arról is, hogy a  jövőben egyetlen platformon szeretné összefogni fő AI-termékeit, hogy egy igazi asztali szuperalkalmazást kínálhasson. A terv szerint a jelenleg különálló ChatGPT, a kódoláshoz készített Codex és a cég webes AI-alapú böngészője egy helyre integrálva egyszerűsítheti a felhasználói élményt és erősítheti a vállalat versenyképességét a piacon a konkurensekkel, például a Claude-ot kínáló Anthropic-kal szemben. Ebben a környezetben az OpenAI célja az lehet, hogy a ChatGPT-t ne csupán chatbotként, hanem komplex munkaplatformként pozicionálja. Ebbe a nagy egészbe illeszkedhet a kreatív igényeket lefedő puzzle-darabkaként a ChatGPT Images 2.0.

chatgptimages2

Az AI erősokszorozó egy rutinos security szakember kezében

Az AI nem csak a fejlesztésre van hatással: új sorozatunkban végignézzük, hogyan hat az informatika más részterületeire.

Az AI erősokszorozó egy rutinos security szakember kezében Az AI nem csak a fejlesztésre van hatással: új sorozatunkban végignézzük, hogyan hat az informatika más részterületeire.

Az Images 2.0 a DALL-E 3 és az előző technológiák utódja, de lényegében még mindig egy szövegből képet generáló AI-eszköz, mely közvetlenül a ChatGPT-n belül érhető el. Fő újítása, hogy a plakátok, menük, különféle kezelőfelületek, infografikák generálásakor olvasható és értelmes szöveget állít elő akár 99 százalékos pontossággal. Korábban az elcsúszó és értelmetlen ákombákom volt az AI-alapú képgenerálás egyik legnagyobb gyengepontja, ezt felváltotta az akár több nyelven történő generálás, a rendszer például koreai, japán vagy kínai karaktereket is természetes módon integrál komplex grafikai elrendezésekbe.

A képgenerálás folyamata kiegészült következtetési és információfeldolgozási lépésekkel, az OpenAI lényegében egy lépésenként építkező, vizuális gondolkodó rendszert épített, nem egyszerű képgenerátort. Ebből kifolyólag már sokkal jobban hasznosítható marketinganyagokhoz, social media posztokhoz, prezentációkhoz. egyetlen promptból akár több, egymással konzisztens képet is generál, ami lehetővé teszi például narratív képsorozatok (pl. manga vagy storyboard) létrehozását, márkakommunikációs vizuális sorozatok készítését, illetve egységes karakterek és objektumok megjelenítését több képen keresztül.

Az OpenAI az első gondolkodási képességekkel rendelkező képmodellként írja le, ami thinking mode-ban valós idejű információkat is elér az interneten a képgeneráláshoz. Ekkor a rendszer előbb elemzi a feladatot, több lépésben tervezi meg a képet, és akár külső információkat is figyelembe vesz, ez a megközelítés pedig közelebb hozza a problémamegoldó AI-rendszerekhez. A webes eléréssel az Images 2.0 aktuális vagy valós adatokat tud beépíteni (pl. térképek, statisztikák), miközben kontextus-specifikus információkkal dolgozik, és pontosabb vizuális tartalmakat hoz létre. Ez különösen az üzleti dashboardok,  oktatási anyagokok vagy adatvizualizációk esetében hasznos. A korai tesztek alapján azért még nem lehet tökéletesnek nevezni a rendszert, a komplex jelenteknél előfordulhatnak hibák, és a webes információk használata nem mindig garantál naprakészséget.

Az eddig elterjedt képgeneráló eszközök általában diffúziós modelleket használtak, amelyek a képeket zajból rekonstruálják egy adott bemenet alapján. Az OpenAI kutatói ettől elfordulva az úgynevezett autoregresszív modellek felé fordultak, amelyek előrejelzéseket tesznek egy kép végleges formájával kapcsolatban, és inkább egy LLM-hez hasonlóan működnek. A cég egyelőre ennél több technikai részletet nem osztott meg az új eszközzel kapcsolatban.

A ChatGPT Images 2 globálisan általános elérhető minden felhasználó számára, de természetesen az előfizetési szinttől függő korlátozásokkal. A modell API-n keresztül is elérhető (gpt-image-2), és akár 4K felbontású képek létrehozását is támogatja rugalmas képarányokkal, ami fejlesztői és vállalati környezetben használható ki leginkább.

a címlapról