Kitűnőre vizsgázna magyarból a Microsoft
Noha nem feltétlenül ez volt az eredeti cél, jelentős mértékben javulhat a magyar nyelvű találatok nyelvi pontossága a Microsoft AI-alapú rendszereiben egy versenyhatósági vizsgálat folyományaként.
Eredetileg a tájékoztatási kötelezettségekkel kapcsolatos vélt hiányosságok miatt indított vizsgálatot a Gazdasági Versenyhivatal (GVH) a Microsoft AI-megoldásával (akkor még a Copilot helyett Bing kereső) kapcsolatban, az eljárás azonban időközben új irányt vett, melynek várható folyománya, hogy a redmondiak által használt AI-megoldások pontosabb válaszokat adnak majd magyar nyelven.
A 2023-ban indult vizsgálattal párhuzamosan, tavaly egy átfogó piacelemzést is végzett a versenyhatóság a mesterséges intelligencia piaci versenyre és fogyasztói döntésekre gyakorolt hatásainak a feltérképezése érdekében. E vizsgálat során a hatóság arra jutott, hogy a nagy nyelvi modelleket fejlesztő technológiai cégeknek nem érdekük célzott fejlesztéseket végezni a magyarhoz hasonló kis nyelvekre.
Repülésbiztonság és innováció a HungaroControl fókuszában (x) Technológiai infrastruktúrában és szakmai kompetenciában is a régió egyik legfejlettebb léginavigációs szolgáltatója a HungaroControl.
A Microsofttal szemben indított versenyfelügyeleti eljárásban a GVH végül sem a jogsértést, sem annak hiányát nem állapította meg, részben mivel a technológia fejlődése miatt az eredeti probléma részben okafogyottá vált. Ettől függetlenül a Microsoft az eljárás egy szakaszában benyújtott a magyar versenyhatóságnak egy komplex kötelezettségvállalási csomagot, mely tovább javítja a cég mesterséges intelligencia megoldásainak magyar nyelvű működését.
A szervezet közleménye szerint a cég ehhez egy legalább 10 milliárd magyar szót tartalmazó adatbázist hoz létre, melyet a tisztítási folyamatot követően felhasználja a különböző rendszerek tanításához. A társaság azt is vállalta, hogy az előkészített adatállományt más rendszerek számára is előkészíti majd, ám hogy pontosan milyen formában, milyen technológiai keretek között, azt nem részletezi a közlemény.
A Microsoft jelenleg főként az OpenAI GPT-4/GPT-4o modelljeit használja a Copilotban és más AI-alapú szolgáltatásaiban - ez alapján nem teljesen világos, hogy a fenti vállalás együtt jár-e a ChatGPT nyelvi képességeinek javulásával Magyarországon.
A legnagyobb magyar szövegkorpuszon még így is messze a HUN-REN Nyelvtudományi Kutatóközpontja által fejlesztett PULI modell tanult, mely 50 milliárd szavas "szókincse" révén jelenleg minden más modellhez képest jobban ismeri a magyar nyelv sajátosságait, illetve kulturális és szakmai specifikumait.
A PULI tudása ugyanakkor az általános tudásbázist tekintve jóval szűkebb, mint a legnépszerűbb nagy nyelvi modelleké (GPT-4o, Gemini, Deepseek V3), melyek általános csevegésre már jelenlegi állapotukban is kiválóan használhatók magyar nyelven.