GPT-OSS: nyílt súlyú modellt adott ki az OpenAI
Többszöri halasztás után debütál a GPT-OSS: így öt év után ismét nyílt súlyú modellt mutatott be az OpenAI, miután az elmúlt években inkább zárt, API-alapú üzleti modellre építkezett.
Az OpenAI a GPT-2 óta nem jelentkezett nyílt súlyú (open weight) nyelvi modellel, amit kedden pótolt a két méretben elérhető GPT-OSS bejelentésével. A nagyobb variáns egy 117 milliárd paraméteres érvelő modell, mely a cég saját kommunikációja szerint szinte megegyező teljesítményt nyújt az o4-minivel, a kisebb variáns pedig az o3-mini modellhez hasonlító 21 milliárd paraméteres verzió.
Az úgynevezett „open weights” modellek jellemzője, hogy a betanítás során keletkezett paraméterek (súlyaik) szabadon hozzáférhetők, így a fejlesztők, kutatók és szervezetek a modelleket nem csak letölthetik és lokálisan futtathatják, de finomhangolhatják és beépíthetik saját rendszereikbe offline felhasználáshoz. Ez nem feltétlen jelenti azt, hogy open source lenne a modell, mivel csak a betanított állapotra vonatkozik a nyitottság, nem a kód egészére. A Meta Llama 3 modellje is nyílt súlyú, és bár a modell letölthető és futtatható, de a tanítási adatai nem nyilvánosak.
A GPT-OSS modelleket elsősorban angol nyelvű szövegeken tanították be, kiemelt fókusszal a STEM területekhez, kódoláshoz és általános ismeretekhez kapcsolódó anyagokon. Nem kapott azonban olyan vizuális feldolgozási képességeket, mint a GPT4o, mely képes képi információkat, tehát diagramokat, képeket, képernyőképeket, fotókat is értelmezni, tehát csak szöveggel dolgozik. Mindkét modell natívan 128 ezer tokenes kontextusablakkal rendelkezik, ami egy évvel ezelőtt még versenyképesnek számított volna, de mostanra már az Alibaba Qwen3 családja 256 ezer tokenes kontextusablakot kínál, míg a Meta Llama 4 család akár 10 millió tokenes kontextussal is tud dolgozni.
Az OpenAI frissen bejelentett nyílt súlyú modelljei Mixture of Experts (MoE) architektúrára épülnek, ami a gépi tanulásban azt jelenti, hogy az AI-modell több specializált almodellt (szakértőket) kombinál egy átfogó rendszerben, amivel növelhető a teljesítmény és a hatékonyság. Ezzel a feladatok több kisebb részfeladatra oszthatók, és mindegyiket a különböző feladatokra specializált szakértő hálózatok dolgozzák fel - az úgynevezett „gating”, azaz belső útválasztó mechanizmus dönti el, hogy melyik szakértőt aktiválja adott bementre. Ez jellemzi a DeepSeek-V3, a Mixtral 8x7B-t, és a Llama 4 modelleket is. A GPT-OSS-120B variáns egészen pontosan 128 expertet, azaz specializált hálózatot tartalmaz, amelyek közül négy (összesen 5,1 milliárd paraméter) generál minden kimeneti tokent. A GPT-OSS-20B eközben egy csupaszabb verzió 32 szakértővel és 3,6 milliárd aktív paraméterrel.
A Codeforces benchmarkján a GPT-OSS nagyobb és kisebb variánsa 2622 és 2516 pontot értek el, amivel felülmúlják a DeepSeek R1 teljesítményét, de még mindig elmaradnak az OpenAI o3 és o4-mini modellektől. A Humanity’s Last Exam (HLE) tesztben 19% és 17,3%-os eredményt produkáltak, mellyel szintén a legjobb nyílt modellek közé sorolhatók. A „hallucinációs arány” azonban továbbra is mumus: a cég mérései szerint a 120 milliárd paraméteres GPT-OSS a kérdések 49 százalékában generált téves információkat a PersonQA benchmarkján, míg a kisebb testvérénél már 53 százalékos volt ez az arány.
Ami a hardvert illeti, a 120B-s modell egyetlen 80 GB-os H100 GPU-n futtatható, míg a kisebb, 20B-s verzió egy 16 GB VRAM-os memóriával felszerelt laptopon is dolgozik. Az AI-fejlesztő úgy döntött, hogy legújabb modelljeit a rendkívül engedékeny Apache 2.0 licenc alatt teszi elérhetővé, tehát szinte teljesen szabadon felhasználható – a modellek módosíthatók, terjeszhetők, és akár zárt forrású kereskedelmi termékekbe is beépíthetők bizonyos feltételek mellett. Tehát akár az Amazon Web Services (AWS)-en keresztül is felhasználhatók a vállalatok számára.
Épp ezért van súlya egy másik bejelentésnek is, miszerint először válnak elérhetővé az OpenAI új modelljei az AWS platformján keresztül a Bedrock és a SageMaker szolgáltatásokban. Ez azért fontos lépés, mert az AWS eddig az OpenAI riválisának számító Anthropic céget támogatta leginkább, és eddig nem tett elérhetővé semmilyen OpenAI-technológiát. Az AWS-integráció egyben annak jele is, hogy bár a cég elsőszámú partnere a Microsoft Azure, kénytelen nyitottabbá válni más szereplők felé is a belső feszültségek miatt.