Szerző: roberto

2002. október 25. 01:34

Nyelvi technológia Unixra -- interjú a MorphoLogic fejlesztőivel

Szeptemberben a nyelvi szoftvereiről ismert budapesti MorphoLogic Kft. kiadta a Helyesek programcsomag Linuxra és FreeBSD-re készült változatát. Valójában egyszerre három csomag jelent meg: az Mspell, az MThes és egy extra csomag, amelyben KDE3-hoz készült frontendek találhatóak.

Szeptemberben a nyelvi szoftvereiről ismert budapesti MorphoLogic Kft. kiadta a Helyesek programcsomag Linuxra és FreeBSD-re készült változatát. Valójában egyszerre három csomag jelent meg: az Mspell, a Windowsra készült Helyes-e? nyelvi tudásán alapuló, de Unixos világban elterjedt Ispell parancssori interfészével kompatibilis szóellenőrző és elválasztóprogram, az MThes magyar szinonimaszótár, és egy extra csomag, amelyben KDE3-hoz illesztett grafikus programokat, API-t és alkalmazási példákat találhatunk. A grafikus programok közül az egyik a KSpell két osztállyal kibővített, átdolgozott változata, a másik pedig a Helyette nevű MThes-frontend. A KDE-s programok forráskódját GNU GPL licenc alatt adta ki a cég, az MSpell és az MThes modulok pedig előre fordított bináris változatban tölthetők le a MorphoLogic szerveréről.

A programok kiadása kapcsán megkerestük a MorphoLogicot, hogy megtudjuk, mi áll az Mspell, Mthes és a Helyette alternatív operációs rendszerekre történő kiadásának hátterében, kérdéseinkre a cég két vezető munkatársa, Prószéky Gábor és Kis Balázs válaszolt.

Önök a szakmában két windowsos termékükkel váltak ismertté, a Helyesek csomag Microsoft Wordbe integrált változatával és a szintén windowsos MoBiMouse szótárprogrammal. Miért kezdtek bele a kereskedelmi sikerekkel aligha kecsegtető linuxos és FreeBSD-s fejlesztésekbe?

Nem titok, hogy e fejlesztésekre -- illetve azok eredményeinek hozzáférhetővé tételére -- elsősorban az állami támogatás, a Széchenyi-terv adott lehetőséget. A MorphoLogic kizárólag nyelvészeti programok fejlesztésével foglalkozik, és ami ennél még fontosabb, a fejlesztést támogató nyelvészeti és informatikai alapkutatás jó részét is maga végzi. Egészen 2001-ig, első NKFP (Nemzeti Kutatási és Fejlesztési Programok) projektjeink elfogadásáig azt is elmondhattuk, hogy ezeket a kutatásokat kizárólag magunk finanszíroztuk, ami nem kis szó egy akkoriban tizenegy-két fős, és a százmilliós éves árbevételt el sem érő cégtől. Emiatt nem volt lehetőségünk arra, hogy bármely termékünket szabad szoftverré tegyük.

A linuxos, illetve FreeBSD-s fejlesztést azonban nem kizárólag az állami támogatás hatására és nem csak annak megérkezésekor kezdtük el. Morfológiai elemző programunk (a Humor) portolása már évekkel ezelőtt megkezdődött, sőt korábbi nyelvészeti alapmoduljainkból némelyik Linux alatt (de nem feltétlenül Linux alá) készült. A MorphoLogic fejlesztőcsoportjának számos linuxos barátja van, akik magánszorgalomból foglalkoztak a moduljainkkal.

Fontos még tudni, hogy a MorphoLogic kliens-szerver architektúrájú szótári rendszerének, a MoBiDic programcsaládnak van olyan kiszolgáló komponense, mely jelenleg is rendelkezésre áll Linuxhoz (bár nem nyílt forráskódú).

Tezaurusz, tezaurusz, mondd meg nékem...
Tezaurusz, tezaurusz, mondd meg nékem... [+]

[oldal:Kérdések II]

Ezek szerint állami támogatás nélkül is portolták volna szoftvereiket Unixra? Van önöknél Unix üzletág? Milyen platformok támogatását tervezik a már szóba került Win32 és Unix platformokon kívül?

A kérdés első részére nehéz válaszolni –- valami biztosan történt volna, hiszen az előzőekből is látható, hogy indulásunk (azaz 1991) óta figyeltünk arra, hogy fejlesztéseink magja hordozható, így -- Unix alatt is működőképes -- legyen. Azonban az is valószínű, hogy magas prioritású, saját finanszírozású projektet nem indítottunk volna erre. A várhatóan ingyenes programok kifejlesztése ugyanis vagy pályázati forrásból vagy belső keresztfinanszírozás révén lehetséges, az utóbbi esetben a költséges fejlesztést eltartja valamely más, extra nyereséget hozó termék. Keresztfinanszírozási forrásaink azonban eddig csak a platformfüggetlen számítógépes nyelvészeti kutatási munka részleges fenntartására voltak elegendőek.

Ami a kérdés második részét illeti, jelenleg is támogatunk más (nem Windows vagy Unix) platformokat: például kliens–szerver architektúrájú MoBiDic szótárrendszerünk kiszolgálója Novell Netware-hez is rendelkezésre áll, vagy a hazánkban legnépszerűbb DTP-rendszer, a QuarkXpress kiadványszerkesztő Macintosh alatti változatához is szállítunk helyesírás-ellenőrző és elválasztó programot. Ezek támogatását a jövőben is fenntartjuk.

A unixos csomagok a windowsos termékvonaluk melyik verziójának feleltethetőek meg?

A Linux-csomag a Helyesek 2000-ben is megtalálható Helyes-e? helyesírás-ellenőrzőnek, az ezzel egybeépített Helyesel elválasztóprogramnak és a Helyette tezaurusznak felel meg.

A KDE-s programok forráskódjába belekukkantva Prim András nevével találkozhat a kíváncsi felhasználó, ő az önök főállású unixos fejlesztője?

Prim András nem a MorphoLogic fejlesztője, hanem unixos projektpartnerünknek, a portolásban komoly szerepet játszó jacsa.NET Bt-nek egyik munkatársa, aki az említett GNU GPL licenc alatt kiadott KDE3-illesztést és az API-t készítette.

A Miniszterelnöki Hivatal Informatikai Kormánybiztossága tehát az elmúlt két évben támogatta a céget a unixos eszközök fejlesztésében. A mindennapi feladatok során használható magyar nyelvi technológia fejlesztésének támogatása szerintem alapvetően állami feladat lenne, amelynek outputja ideális esetben GPL vagy BSD licencelésű nyelvi programok formájában jelenne meg. Elképzelhető-e olyan mértékű állami támogatás, amely mellett már vállalkoznának morfológiai elemzőjük forráskódjának kiadására?

Erre a kérdésre -- megfelelő állami ajánlat híján -- nem lehet válaszolni. Azonban az leszögezhető, hogy a morfológiai elemző program a MorphoLogic szellemi tőkéjének törzsét képezi, ezért a közeljövőben nem várható, hogy nyílttá tesszük a program forráskódját.

Bizonyára ismerik a Németh László vezette Magyar Ispell Projektet, valószínűleg beszélgettek is a projektről egymás közt, mi a véleményük róla, szakmailag mennyire tartják jónak?

Mivel mostani fejlesztésünk első lépése egy Ispell-szótár létrehozása volt, megvizsgáltuk, hogy az eredeti program nagy (kb. 1,7 millió szavas) szótár használata mellett milyen eredményt szolgáltat. A szótár mellett az Ispellben rendelkezésre álló, a ragozást leíró úgynevezett affix-fájlok lehetőségeit végigelemezve azonban úgy láttuk, hogy egy "tisztességes" szótár mellé csak igen fáradságos és végül mégsem kifizetődő munkával készíthető használható, de nem kielégítő minőségű affix-fájl, így energiánkat a Helyes-e? portolására fordítottuk. Eközben tőlünk függetlenül, és más úton haladva ezt a célt Németh László is elérte.

[oldal:Kérdések III]

Melyek azok a területek, ahol önök szerint jobb az Mspell a magyar szótárral bővített Ispellnél?

Meggyőződésünk, hogy a magyar nyelv szókészlete (a lehetséges szóalakok készlete) nem kezelhető pusztán szótáras megoldással (még akkor sem, ha a szótárban reguláris kifejezések is használhatók). Morfológiai rendszerünk jelenleg kb. tízmilliárd szóalakot kezel, amelyek a magyar nyelv rendkívül bonyolult szóalkotási szabályainak működése következtében jöhetnek létre. Emiatt vált nyilvánvalóvá még a 80-as években, hogy a legegyszerűbb, elfogadható minőségű magyar helyesírás-ellenőrző program kifejlesztése is megköveteli a morfológiai elemző program alkalmazását. Tudomásunk szerint a magyar Ispell nem tartalmaz a Humorhoz hasonló általános (nyelvfüggetlen) morfológiai elemző programot, így elvileg kétséges, hogy a feladatot hasonló minőségben el tudná látni.

Annak ellenére, hogy a magyar szótárral bővített Ispell szóellenőrző nem képes a gépi elválasztásra, és bizonyos területeken esetleg alulmarad az önök szoftvereivel szemben, behozhatatlan előnyökkel is rendelkezik: GNU GPL alatt adták ki, tehát bárki szabadon hozzáférhet a szótárfájlok előállításához szükséges adatokhoz, így a Magyar Ispell Projekt munkája már több jelentős disztribúcióba is bekerült (időrendben: SuSE Linux 8.0, Debian Linux 3.0, Red Hat Linux 8.0). Nem tartanak attól, hogy elegendő felhasználó és rendszeres állami támogatás híján a szabad rendszerek világában esetleg elveszhet a munkájuk a változó rendszerkönyvtárak, a kiadásról kiadásra módosuló programozói és bináris interfészek között?

Nem félünk, legalábbis a következő években biztosan nem. Gondoljunk csak a Linux alá készült víruskereső programokra (Antivir, Panda stb.) vagy a Pstill PDF-konverterre, és még sorolhatnánk. Az említett programokat gyártó cégek windowsos kereskedelmi változataik mellé rendre elkészítik a magáncélú felhasználásra ingyenes, de nem nyílt forráskódú linuxos változataikat is, amelyek népszerűek a Linux-felhasználók körében. Éppen a SuSE híres arról, hogy disztribúciójában ilyen licencelésű programok is szerepelnek.

Másrészt a portolás során forráskódunkat sikerült GCC-kompatibilissá tenni, így a későbbi rendszerkönyvtárakhoz való fordítás már nem lesz állami támogatást igénylő nagyságrendű feladat. A GNU GPL-es KDE-s források naprakészen tartása tekintetében pedig bízunk a szabad szoftvert kedvelők táborában, akiktől már egy héttel a publikálás után hasznos észrevételeket kaptunk.

Akcióban az Mspell
Akcióban az Mspell [+]

[oldal:Kérdések IV]

Folytatnak-e tárgyalásokat valamelyik Linux-disztribútorral, licenceli önöktől valamilyen cég a Linuxra és FreeBSD-re kiadott nyelvi eszközöket?

Egyelőre még tényleg nem elég ismert a MorphoLogic linuxos tevékenysége, de talán a közeljövőben -- épp az ilyen interjúk hatására is -- a Linux-disztribútorok erről az oldalunkról is megismernek minket.

Szentiványi Gábor, a SuSE Linux Magyarország vezetője lapunknak elmondta, hogy az ingyenesen használható, de nem nyílt forráskódú programok esetében gyakran csak az RPM formátumú csomagok elkészítését szokták támogatni, a disztribúcióba való bekerülés inkább a gyártó érdeke; ugyanakkor rámutatott arra is, hogy még nem tárgyaltak a MorphoLogic képviselőivel a nyelvi szoftverekről.

A Microsoft Office egyre erősebb ellenfelének számító OpenOffice/StarOffice csomaghoz tervezik nyelvi modulok kiadását?

A cég jelenlegi állapota (mérete) sajnos nemigen teszi lehetővé alapvető termékek ingyenes kiadását, ezért erről akkor beszélhetünk, ha a StarOffice csomag gyártója (a Sun Microsystems) hajlandónak mutatkozik a modulok felhasználási jogának megvásárlására. Idáig sem az ő részükről, sem a mi részünkről nem történtek lépések ez ügyben. Ugyanakkor a Multiráció Kft. által összeállított OpenOffice-alapú MagyarOffice csomagnak nemcsak a windowsos, hanem a linuxos változata is tartalmazza -- méghozzá változatonként egyre bővülő mértékben -- nyelvi moduljainkat.

Várható-e, hogy más termékeik (pl. szótárak) is megjelennek Linuxra és FreeBSD-re?

Ahogy arról már korábban volt szó, kliens-szerver architektúrájú MoBiDic 4 szótári rendszerünk kiszolgálója jelenleg is megvásárolható Linuxhoz, és a kiszolgálóhoz kapható webes felület segítségével a szótári szolgáltatás elvben bármilyen platformról elérhető, mivel nem alkalmazunk böngészőfüggő elemeket. A jó minőségű szótárak ingyenességét viszont várhatóan sohasem tudjuk majd biztosítani, mivel ezt a szótárak eredeti jogtulajdonosaival kötött szerződéseink nem teszik lehetővé.

Azonban határozott szándékunk, hogy hasznos termékekkel szolgáljunk a Linuxot/FreeBSD-t használók számára is, aminek finanszírozási feltételeit valamilyen módon meg kell teremteni. Hacsak cégünk nem kezd nagyságrendi növekedésbe az elkövetkező években, akkor ennek legkézenfekvőbb forrása továbbra is a költségvetés lehet.

Köszönöm, hogy szakítottak időt a válaszadásra, további sikereket, eredményes munkát kívánok a szerkesztőség nevében is!

Szólj hozzá a fórumban!

Nagyon széles az a skála, amin az állásinterjú visszajelzések tartalmi minősége mozog: túl rövid, túl hosszú, semmitmondó, értelmetlen vagy semmi. A friss heti kraftie hírlevélben ezt jártuk körül. Ha tetszett a cikk, iratkozz fel, és minden héten elküldjük emailben a legfrissebbet!

a címlapról