:

Szerző: Dömös Zsuzsanna

2025. május 16. 14:30

Késik a Meta behemótja

A közösségi óriás csúsztatja a Llama 4 modellcsalád „ Behemoth" néven említett eddigi legerősebb verziójának nyilvános kiadását, mivel attól tart, hogy nem tud jelentősebb előrelépést hozni az előző kiadásokhoz képest, illetve teljesíteni az elvárásokat.

Első alkalommal rendezte meg a Meta múlt hónapban a nagy nyelvi modelljeinek dedikált LlamaCon konferenciát, ahol többen is arra számítottak, hogy a cég egy fejlett érvelési modellel állhat elő, miután a DeepSeek V3 és az Alibaba által fejlesztett Qwen bemutatkozott a mezőnyben. Egy hónappal korábban a közösségi óriás kiadta még az esemény előtt a Llama LLM-család negyedik generációját két nyitott súlyozású modellel, a Llama 4 Scout és 4 Maverick variánsokkal. Mellettük bejelentette az egyelőre még képzés alatt álló erősebb „Behemoth”-ot, amit kifejezetten desztillációra, tehát kisebb és speciális modellek készítésére szán.

A Wall Street Journal forrásai szerint a Behemoth azonban csak késéssel fog megjelenni az eredetileg áprilisra, majd júniusra tervezett dátum helyett, a jelen állás szerint ősszel vagy akár még később, ami ronthatja a Meta esélyeit arra, hogy a rendkívül kompetitív területen fel tudja venni a versenyt. Az elmondások alapján a fejlesztésekre költött dollármilliárdok ellenére sem sikerült még a várt eredményeket elérni a modell képességeiben, a fejlesztői pedig attól tartanak, hogy nem tudják teljesíteni az elvárásokat. A felsővezetésben is feszültséget okoz az előrelépési lehetőségek hiánya.

A fejlesztők és az iparág némi csalódottsággal figyeli, hogy az egykor izgalmas, nyílt modelleket kiadó Meta veszít lendületéből mind technikai teljesítmény, mind fejlesztői gondolkodásmód tekintetében. Miközben a Meta továbbra is nyíltan ad hangot a nyíltság és az ökoszisztéma-építés iránti elkötelezettségének, addig az olyan riválisok, mint a DeepSeek, a Qwen és az OpenAI rendkívül gyors tempóban fejlődnek érvelés, eszközhasználat és valós életbeli alkalmazás terén.

metacsuszas

Hyperscaler vagy hazai felhő? Lehet, hogy nem kell választani!

Egy jól felépített hibrid vagy multicloud modellben a különböző felhők nem versenytársai, hanem kiegészítői egymásnak.

Hyperscaler vagy hazai felhő? Lehet, hogy nem kell választani! Egy jól felépített hibrid vagy multicloud modellben a különböző felhők nem versenytársai, hanem kiegészítői egymásnak.

A Llama 2 bevezetését az Nvidia vezérigazgató Jensen Huang 2023-ban egyenesen az év legfontosabb előrelépésének nevezte AI területén. Ezt követte 2024 júliusában a Llama 3 megjelenése, ami sikeresen versenyezhetett volna az OpenAI-jal. A Llama 3 azonnal felpörgette a keresletet a combosabb számítási teljesítményre is, emelkedni kezdett a GPU-k bérleti díja.

Ezután a Meta a kínai DeepSeek által népszerűsített „mixture of experts” architektúrát kezdte el alkalmazni. A Mixture of Experts (MoE) architektúra a gépi tanulásban azt jelenti, hogy az AI-modell több specializált almodellt (szakértőket) kombinál egy átfogó rendszerbe, amivel növelhető a teljesítmény és a hatékonyság. Ezzel a feladatok több kisebb részfeladatra oszthatók, és mindegyiket a különböző feladatokra specializált szakértő hálózatok dolgoznak fel. Az úgynevezett „gating”, azaz váltó mechanizmus dönti el, hogy melyik szakértőt aktiválja adott bementre. Ez jellemzi a DeepSeek-V3 modellt is, illetve a Mixtral 8x7B-t, és a Llama 4 modelleket.

A Llama 4 debütálásával a Meta a marketinggépezet dübörögtetésével gyorsan kivívta magának a kritikus visszhangot, miután a fejlesztők észrevették, hogy a nyilvános benchmarkinghoz használt Meta verzió nem ugyanaz, amely számukra letölthető és telepíthető.

Ugyan nincs olyan megbízható forrás, amely meg tudná mérni, hogy melyik modell vagy modellcsalád a legnépszerűbb a fejlesztők körében, de a rendelkezésre álló adatok azt mutatják, hogy a Llama legújabb modelljei nem tartoznak a vezető választások közé. A teljesítmény alapján rangsoroló Artificial Analysis oldal a Llama 4 Mavericket és Scoutot közvetlenül az OpenAI tavaly év végén kiadott GPT-4 modellje fölé, de az xAI Grok és az Anthropic Claude alá helyezi. A saját API-ján keresztül gyűjtött adatokkal ranglistát készítő Openrouter platformon pedig a Lama 3.3 a május elején használt legnépszerűbb 20 modell között szerepel, míg a Llama 4 variánsok nem. Az elemzők szerint a Meta lemaradásának egyik legfontosabb kvázi mutatója lehet az érvelési modell hiánya, ami alapvetőbb eleme az egyre népszerűbb AI-ügynökök felépítésének, mely felé az iparág tart.

Érdemes hozzátenni, hogy a Meta problémája nem teljesen egyedi, mert más modellfejlesztőknél szintén lassulni látszik a fejlődés az elköltött összegek ellenére. Az OpenAI GPT-5 modelljét eredetileg nyárra datálták, végül a GPT-4.5-öt tudja előbb szállítani a cég, a következő generáció érkezésének időpontja pedig nem ismert. Az Anthropic tavaly jelentette be, hogy aktívan dolgozik a Claude 3.5 Opuson, ami máig nem jelent meg, és a cég is csak annyi információval tud szolgáltani, hogy "hamarosan" várható.

Október 13-án, hétfőn "A modern CI / CD alapjai" címmel ONLINE képzést indít a HWSW, ezért most összefoglaltuk röviden, hogy miért érdemes részt venni ezen a tanfolyamon.

a címlapról

aw

1

Mégis minek az 5G egy okosórába?

2025. október 6. 11:59

Az új Apple Watch szériák egyik kézzelfogható újdonsága az 5G-támogatás, de ezúttal nem a gigabites letöltés a cél.