Költséghatékony apró nyelvi modellel rukkolt elő a Microsoft
A GPT-3.5 szintjét megközelítő, hárommilliárd paraméteres kisméretű nyelvi modellt tesz elérhetővé a Microsoft a vállalatok számára.
A Microsoft bejelentette a kifejezetten okostelefonra és más helyi eszközökre optimalizált, alacsony költségekkel járó Phi-3 Mini AI-modelljét, amely a közeljövőben kiadásra tervezett összesen három Phi-3 modell egyik variánsa. A 3,8 milliárd paraméteres modellel a készítők célja, hogy a kisebb szervezetek számára olcsón tudjon alternatívát szolgáltatni a felhőalapú nagy nyelvi modellekkel (LLM) szemben azzal a rugalmassággal, hogy ideális az okostelefonokban és laptopokban megtalálható fogyasztói GPU-n vagy AI-gyorsító hardveren való futtatásra.
A redmondi cég állítása alapján az új modell felülmúlja az előző generációs, decemberben bemutatott Phi-2 teljesítményét, sőt azzal az állítással él, hogy a tízszer nagyobb modellekhez, például a GPT-3.5-höz hasonló szinten teljesít, csak kisebb méretben. Az adatkészlet a Phi-2 modellen alapul, de az interneten hozzáférhető, illetve szintetikus adatokat is hasznosít, amik szigorú szűrési folyamaton mentek át.

Platón ragadt informatikusok klubja Egyetlen más szakma sincs, ahol olyan gyorsan el lehet érni a karrier-platóra, mint az IT. A midlife, a mid-level mellett létezik mid-career krízis is.
A Microsoft új technológiája a különféle matematikai, programozási és akadémiai teszteken jobban teljesített a többi kisméretű modellnél (Mistral, Gemma, Llama-3-In). A kisebb adatkészlet egyik hátránya az általános, tényszerű ismeretek szélessége, de a kisebb, belsős adatkészletekkel való dolgozáshoz (akár egy szervezeten belül) ideális választás. A Microsoft reményei szerint így a kisebb büdzséből gazdálkodó vállalatok számára is hozzáférhető megoldást tud kínálni a nyelvi feldolgozást igénylő különböző alkalmazásokhoz.
A redmondi cég riválisainak többsége már rendelkezik kisebb AI-modelekkel, amelyek többsége egyszerű, specifikus feladatokhoz készült, például dokumentumok összegzéséhez, vagy kódolási segítséghez. A Google Gemma 2B és 7B-je főleg chatbotokhoz és nyelvi feladatokhoz ideális, az Anthropic Claude 3 Haikuja kutatásokat foglal össze, míg a Meta nemrég kiadott Llama 3 8B modellje szintén a kódolási asszisztenciát segíti.
A Phi-3 Mini már elérhető az Azure-on, a Hugging Face-en és az Ollamán. A Microsoft legközelebb a Phi-3 Small (7 milliárd paraméter) és a Phi-3 Medium (14 milliárd paraméter) kiadását tervezi, amelyek még több összetett utasítást képesek értelmezni.