2025. január 28. 14:20

DeepSeek: Pánikra semmi ok?

Kínai fejlesztésű AI-alkalmazás rengette meg az amerikai AI-chatbotok vezető pozícióját az App Store-ban, de csak hosszútávon derülhet ki, mi is ennek a valódi jelentősége. A DeepSeek jelentős előrelépést hoz abban, hogy a meglévő AI-rendszerek olcsóbbak és hozzáférhetőbbek legyenek, de lényegében már kitalált technológiák optimalizálásáról van szó, így a vélemények megoszlanak azzal kapcsolatban, van-e oka pánikolni az amerikai fejlesztőknek.

Hétfőn a kínai DeepSeek R1 nagy nyelvi modelljére épített AI-asszisztens chatbotja megszerezte az első helyet az amerikai Apple App Store-ban az ingyen letölthető alkalmazások toplistáján, ezzel maga mögé utasítva az OpenAI ChatGPT-jét. Erre a momentumra a tőzsde is reagált: az Nvidia számára különösen szerencsétlen nap volt, mivel részvényeinek árfolyama 17 százalékot esett, amivel 600 milliárd dollár tűnt el a chipgyártó piaci értékéből. Ez egyébként az Egyesült Államok történetének legnagyobb egynapos értékvesztése egy vállalat számára. A részvényeladási hullám nyomán kialakuló felbolydulás számos kérdést hozott magával, többek közt hogy tényleg szükség van-e az iparág csillagászati finanszírozási köreire és milliárd dolláros értékelésekre, és hogy nem készül-e kipukkadni a generatív AI-lufi.

A DeepSeek körüli érdeklődés ugyan a napokban robbant, de már a hónap elején elkezdett felfutni az R1 modell bejelentésével, amely a startup állítása szerint az OpenAI o1 modelljéhez hasonlóan teljesít. A január 20-án kiadott R1 korai tesztjei azt mutatják, hogy teljesítménye bizonyos kémiai, matematikai és kódolási feladatokban valóban megegyezik az o1 teljesítményével.

Ám a többi chatbothoz hasonlóan azonban a DeepSeek chatbotjának is megvannak a korlátai: nem hajlandó a kínai elnökről beszélni, helyette másra tereli a szót, hol egyenesen cáfolja, hogy Hszi Csin-Ping egyáltalán létezik. A visszajelzések alapján még számolni kell egy hosszabb válaszadási idővel is, miközben a válaszok a hallucinációt sem nélkülözik – közel sem tökéletes chatbotról van szó, amit a fórumokon megosztott tesztekről szóló egyedi beszámolók is alátámasztanak. Ami miatt még érdemes kiemelni az R1-et a kutatók szerint, hogy az MIT licence alapján kiadott modell szabadon újrafelhasználható, azonban nem tekinthető teljesen nyílt forráskódúnak, mert a képzési adatait nem tették elérhetővé.

deepseekai

Kafka és CI/CD alapozó online képzéseket indít a HWSW!

Ősszel 6 alkalmas, 18 órás Kafka és CI/CD alapozó képzéseket indít a HWSW. Most early bird kedvezménnyel jelentkezhetsz!

Kafka és CI/CD alapozó online képzéseket indít a HWSW! Ősszel 6 alkalmas, 18 órás Kafka és CI/CD alapozó képzéseket indít a HWSW. Most early bird kedvezménnyel jelentkezhetsz!

A legélénkebb vita arról zajlik, hogy az olcsó kínai AI-modell megjelenése valóban megváltoztatja-e az eddigi verseny dinamikáját. Casey Newton, a Platformer technológiai hírlevél szerzője szerint érdemes figyelembe venni, hogy egyelőre nem tudni, mi lesz hosszútávon a DeepSeek stratégiája. A startupot 2023-ban alapította Liang Wenfeng, a High-Flyer fedezeti alap társalapítója. A DeepSeek szerint a legújabb AI-modelleket az Nvidia gyengébb teljesítményű Nvidia H800-as (csökkentett képességű) chipjeiből építették, amelyek nincsenek tiltva Kínában – ez pedig arra utal, hogy a csúcstechnológia nem feltétlenül szükséges az AI fejlesztéshez.

A DeepSeeknek jelenleg nincs kiforrt üzleti modellje. A legtöbb nagy amerikai AI-laboratórium számára az ideális megoldásnak eddig a szolgáltatásfejlesztés és annak nyereséges értékesítése tűnik a járható útnak. A DeepSeek jelenleg meglehetősen altruista, könnyen hozzáférhető technológiával, de ez bármikor változhat: a startup idővel előfizetéseket vezethet be, vagy új korlátozásokat állíthat be a fejlesztői API-kra. Sejtések szerint nincs kizárva, hogy a vállalat később akár átveheti a felhasználói adatokat, hogy azok a fedezeti alaphoz kerüljenek. Jun Rong Yeap, az IG Asia munkatársa szerint is csak hosszabb távon fog kiderülni, hogy a DeepSeek életképes, olcsóbb alternatívának bizonyul-e, a fő aggodalom épp ezért, hogy az amerikai technológiai óriáscégek árképzési ereje nem kerül-e veszélybe.

Newton kiemeli, hogy kevesebb szó esik arról, hogy a DeepSeek modelljei végeredményben mégis amerikai innovációkra építenek, hiszen az amerikai AI-laboratóriumok által kifejlesztett nagy nyelvi modellek és az újabb érvelési modellek mögöttes architektúráját alkalmazták. Az viszont vitathatatlan, hogy a startup ügyesen optimalizálta ezt az architektúrát régi hardverre és kisebb számítási teljesítményre, és hogy a nyílt forráskódú laborok sokat fejlődtek reverse-engineering terén. A fő meglepettség apropója, hogy míg az OpenAI, az Anthropic és a Google minél nagyobb összegeket tol abba, hogy fejlessze infrastruktúráit a modellek skálázásához és az ügyfelek kiszolgálásához, addig a kínaiak alternatívája állítólag az élen járó AI-fejlesztő cégek által képzésre fordított költségek töredékéből készülhetett el.

A becslések eltérnek azzal kapcsolatban, hogy mennyi lehetett a DeepSeek technológiájának pontos fejlesztési költsége és energiafogyasztása. A becslések szerint mindössze 5,6 millió dollárba került a modell betanításához szükséges hardver bérlése, míg a Meta Llama 3.1 405B esetében ez több mint 60 millió dollár, a GPT-4 képzésére költött 100 millió dollárról nem is beszélve. Egyes kutatók szerint ez a momentum egyébként már előre sejthető volt: mármint hogy nyílt forráskóddal foglalkozó vállalatok visszafejtik a nagy laboratóriumok munkáját, és törvényszerűnek tekinthető az is, hogy az AI-modellek képzési költsége idővel drámaian csökkenni kezd. Ethan Mollick, a Pennsylvaniai Egyetem Wharton Iskola professzora szerint egy GPT-4 szintjéhez hasonlóan teljesítő AI-modell költségei töredékére csökkentek az elmúlt 18 hónapban, akár ezred annyiba kerülhet.

Fontos beszédtémaként merülhet fel, hogy a DeepSeek egy szót sem ejt a biztonságról, egyesek azt is meglepőnek találnák, ha lenne kifejezetten etikai és biztonsági kérdésekkel foglalkozó kutató a csapatban. A gyors növekedést és fejlesztést pártoló kínai cégek láttán elképzelhető, hogyaz amerikai vállalatok is sarokba dobják a biztonsági erőfeszítéseket, vagy legalábbis kevesebb erőforrást fordítanak rá a jövőben. Mindeközben az AI legfontosabb biztonsági problémái még megoldatlanok. A Biden-adminisztráció néhány enyhe korlátozást már bevezetett korábban az amerikai AI-laboratóriumok munkájára vonatkozóan egy végrehajtási rendelettel, amit Trump már az első napon hatályon kívül helyezett.

Szankciók kudarca?

A kínai alternatíva még egy fontos témát vet fel: mindezt annak ellenére sikerült ezt elérni, hogy az USA évek óta aktívan próbálja elvágni Kínát a kulcsfontosságú amerikai technológiáktól. Ezért a DeepSeek példáját látva többek állítják, ez a stratégia nem használ, sőt kontraproduktív, mivel a kínai kormányzat még aktívabban áll be a helyi fejlesztések mögé.

Ezen gondolat alátámasztásául említhető még az elmúlt évekből, hogy a Huawei sem adta fel, és piacra dobta a Mate 60 okostelefont, miközben a TikTok, a Shein és a Temu mind domináns versenyzőkké váltak a saját piacukon, szintén a kínai szolgáltatások erejét mutatva. Az elmúlt hat évben kivetett vámok, szankciók és exportkorlátozások ellenére Kína domináns szereplő tud maradni a legtöbb iparban. Ugyan az USA sikeresen őrzi saját piacát, de ettől még más országokban egyre többen vezetnek kínai elektromos autókat, használnak kínai appokat és szolgáltatásokat.

Az egyik oldal szerint tehát a Biden-adminisztráció chipexportra vonatkozó korlátozásai kudarcot vallottak, az ellenoldal szerint azonban ezt nem lehet így határozottan kijelenteni, mivel az exportellenőrzések viszonylag újak – több időre van szükség, hogy valódi hatásuk érezhető legyen. Az exportellenőrzések elsődleges hatása az lehet a későbbiekben, hogy Kínának összességében még mindig kisebb számítási teljesítménye van, mint az Egyesült Államoknak, ebből kifolyólag még egy fejlett AI-modell esetén sem biztos, hogy sikerülhet olyan széles körben bevezetni és üzemeltetni saját technológiájukat, mint ahogy szeretné.

DeepSeek: Pánikra semmi ok?

Kafka és CI/CD alapozó online képzéseket indít a HWSW!

Szankciók kudarca?

Mi hajtja a számítástechnika forradalmait? - 3.

Újabb skalpot gyűjtött a Google felhős üzletága

Pixel 10: a Google-t sem igazán érdekli már a hardver

DeepSeek: Pánikra semmi ok?

Kafka és CI/CD alapozó online képzéseket indít a HWSW!

Szankciók kudarca?

Mi hajtja a számítástechnika forradalmait? - 3.

Újabb skalpot gyűjtött a Google felhős üzletága

Pixel 10: a Google-t sem igazán érdekli már a hardver

H20: amikor az USA enged, Kína bekeményít

Kafka és CI/CD alapozó online képzéseket indít a HWSW!

Költekezés után toborzási stop a Meta-nál

H20: amikor az USA enged, Kína bekeményít

Költekezés után toborzási stop a Meta-nál

Ha kell, ha nem megkapják az állami üzenetküldőt az oroszok