2003. április 7. 12:27

Spam: a világháló szemete

Löncshús: néhány évtizeddel ezelőtt még így fordítottuk volna magyarra az angol spam szót, amely időközben látványos jelentésbővülésen esett át. Cikkünkben a napjainkra egyre bosszantóbbá váló jelenség mibenlétéről, történetéről és a védekezés lehetőségeiről adunk vázlatos ismertetőt.

Nagyobb pénisz már két hét alatt!; Keress félévente félmillió dollárt!; Egyedülálló? Nálunk megtalálja párját; József, ez egy kihagyhatatlan ajánlat! -- naponta akár több tucatszor is olvashatunk hasonlóan harsány, "csak nekünk, csak most" ajánlatokat és egyéb izgalmakat az inboxunkba érkező levelek subjectjeiben. Azért csak ott, mert ezeknek az üzeneteknek az érdemi (?) szövegét már kezdő netes korunkban sem olvastuk el, nemhogy évek tapasztalatával a hátunk mögött. A rutinos emilező tudniillik úgy van kondicionálva, hogy már miközben a levelek jönnek lefelé, a delete gomb fölé helyezi mutatóujját (ki ezt, ki azt), hogy aztán villámgyorsan lecsaphasson. A spamek törlése ma már minden netizen kényszerű foglalatossága. Nálam speciel kész szertartássá vált. Van, hogy "időre megyek": minél gyorsabban, ugyanakkor minden szűrőnél megbízhatóbb pontossággal igyekszem elvégezni a spamek számára végzetes szortírozást; de van, hogy rendszerezek, és például azokkal kezdem, amelyek a keresztnevemen szólítanak, merthogy ismeretlen angolszászoktól ezt tegezésnek veszem.

Félnapi termés

De miről is van szó? A spam sem nem új keletű, sem nem ritka, definíciója azonban a mai napig meglehetősen képlékeny. Az Egyesült Államokban, ahol először került terítékre a bosszantó jelenség jogi szabályozása, többnyire az unsolicited commercial email (UCE) kifejezést használják a szó szinonimájaként. Nálunk is ezek alapján vált közkeletűvé a kéretlen reklámlevél terminus. E definíció azonban elsősorban a jogalkotók szempontjait figyelembe véve született, így nem feltétlenül fedi le mindazt, ami a spam jelentéskörébe tartozik.

A kéretlen reklámlevél meghatározás tulajdonképpen arra alkalmas, hogy jogi fogást lehessen találni a spamküldők egyik, kétségtelenül legnagyobb táborán. A reklámra vonatkozóan minden országban léteznek jogszabályok, melyek többé-kevésbé szigorú keretek közé szorítják a személyes adatok (így az e-mailcím) reklámok terjesztése céljából történő felhasználását. Ha a felhasználó nem adta jóváhagyását ahhoz, hogy elektronikus levélcímét ilyen célokra felhasználják (opt-in modell), vagy a reklámozó nem biztosít lehetőséget számára arra, hogy jelezze, nem tart igényt efféle üzenetekre (opt-out modell), felvethető az e-mailcím mint személyes adat jogosulatlan kezelésének gyanúja.

Tény azonban, hogy a spam tágabb fogalomkörébe a reklámlevelek mellett számos más tematikájú (politikai agitáció, hittérítés stb.) és műfajú (lánclevelek, hoax stb.) üzenet is beletartozik. Éppen e formai sokszínűség miatt tűnik szükségesnek a befogadó, a címzett szempontjai alapján (is) definiálni a jelenséget, ez azonban szükségszerűen még ingoványosabb terület. Az újabban használt unsolicited bulk email (UBE) és annak magyarítása, a kéretlen (tömeges) levél a tematikára való utalás elhagyásával ebbe az irányba mutat. Ugyanakkor az sem igaz, hogy minden kéretlen levél spam lenne, hiszen ha kizárólag olyan üzeneteket kapnánk, amelyeket várunk, vagy kifejezetten kértünk, igen sivár lenne a netizenek élete. Ahogy könnyen előfordulhat az is, hogy egyesek érdeklődnek egy bizonyos terméket vagy szolgáltatást kínáló, tömegesen terjesztett reklámlevél tartalma iránt, míg mások minden ilyet zaklatásnak tekintenek.

Egy azonban biztos: a spam bosszantó és etikátlan. Etikátlan, mert egy olyan kommunikációs csatornát aknáz ki, amely minimális költség mellett teszi lehetővé több ezer vagy akár millió ember elérését, miközben költséget jelenthet a címzettek és az internetszolgáltatók számára, és volumenénél fogva jelentősen leterheli az internet gerinchálózatát.

[oldal:A löncshús és a második eljövetel]

Löncshús: néhány évtizeddel ezelőtt még így fordítottuk volna magyarra az angol szót, amely időközben látványos jelentésbővülésen esett át. A hagyomány szerint a Monty Python társulat egyik népszerű jelenetének köszönhetően kezdték használni a spam szót mai jelentésével rokonítható értelemben. A beszédes Spam címet viselő rövid jelenetben egy házaspár betér egy löncshúsért rajongó vikingekkel teli kocsmába, hogy egyen valamit. Mint kiderül, minden étel löncshúsból készült, így a pincérnő és a vendég pár szájából megszámlálhatatlanul sokszor hangzik el a spam szó, a háttérben társalgó vikingek pedig annak minden említésekor a löncshúst dicsőítő dalok éneklésébe kezdenek, ami a felszolgálót rendkívül felbőszíti. Így vált a spam valamiféle túlzottan gyakran ismétlődő és bosszantó dolog szinonimájává.

Az eredeti spam

A szót elsőként állítólag a 80-as évek végén kezdték használni ebben az értelemben az on-line szerepjátékok ősének tekinthető MUD (Multi-User Dungeon vagy Multi-User Dimension) rendszerben. Ekkoriban a spam jelentése nagyjából a következő volt: elárasztani a számítógépet vagy a (chat)rendszert olyan információkkal, melyek vagy magát a számítógépet terhelik túl, vagy a rendszerhez csatlakozott felhasználók bosszantására szolgálnak. Egyes beszámolók szerint a szó eredetileg a mai csevegőrendszerek korai előfutárának számító BITnet Relay rendszerben terjedt el 80-as évek első felében és a MUD közösségbe innen szivárgott át.

A jelenség azonban a fogalom elterjedése előtt már jó néhány évvel létezett. Az első dokumentált, nagy mennyiségben elküldött kéretlen e-mailüzenet a számos más területen úttörőnek számító Digital Equipment Corporation (DEC) nevéhez fűződik. A vállalat DECSYSTEM-20 számítógépcsaládjának bemutatójára invitáló meghívót 1978. május 2-án, azaz egy hónap híján 25 évvel ezelőtt küldték el az internet elődjének tekintett ARPANet hálózatra: a levelet a DEC szándéka szerint megkapta volna a hálózatra csatlakozó minden nyugati-parti felhasználó. A céget az ARPANet üzemeltetői elmarasztalták a spam miatt, érdekes történeti kuriózum ugyanakkor, hogy Richard M. Stallman, aki ma a Szabad Szoftver Alapítvány elnöke, vehemensen védelmezte a sokakat felbőszítő eljárást.

Eric Idle és Graham Chapman a Spam című jelenetben

A gyereket először 1993. március 31-én nevezték nevén. Richard Depew, a USENET hírcsoport egyik adminisztrátora ekkoriban igyekezett bevezetni a rendszerben a retromoderálás, azaz az utólagos moderálás gyakorlatát. A USENET-en ugyan korábban is voltak moderált csoportok, azonban ezek esetében a csoportért felelős moderátor még a megjelenésük előtt átnézte az üzeneteket, míg Depew a mai internetes fórumokban alkalmazott elvhez hasonlóan utólag törölte volna a kifogásolható megnyilatkozásokat. A retromoderálást lehetővé tevő szoftver azonban tartalmazott egy hibát, aminek köszönhetően 1993. március 31-én 200 üzenet landolt az adminisztrátoroknak szánt USENET hírcsoportban. A dühödt csoporttagok válaszaiban pedig felbukkant a spam szó.

Az első -- így is nevezett -- valódi spammernek azonban az a diák tekinthető, aki 1994 elején minden egyes USENET hírcsoportba elküldte a "Globális figyelmeztetés mindenkinek: Jézus rövidesen eljön" című üzenetét. Hasonló módszert alkalmazott a Canter & Siegel ügyvédi iroda néhány hónappal később, amikor szintén minden hírcsoportot elárasztottak egy külföldi bevándorlókat megcélzó visszautasíthatatlan ajánlattal. Az eset azért érdemel említést, mert míg a Krisztus második eljövetelét hirdető diák belátta, hogy hibát követett el, Canter és Siegel a direktmarketinget forradalmasító héroszoknak tekintették magukat. Röviddel az eset után meg is jelentettek egy mérsékelt sikerre ítélt munkát a következő lakonikus címmel: Miként gazdagodjunk meg az információs szupersztrádán: mindenki gerilla-útmutatója az internetes és egyéb on-line szolgáltatások marketingcélú felhasználáshoz.

[oldal:Praktikák]

A spam evolúciója azóta töretlen. Becslések szerint az idén már arra számíthatunk, hogy minden második e-mail szemét lesz, ami a felhasználóknak egyre több bosszúságot, a vállalatoknak és az intézményeknek pedig egyre súlyosabb összegekben mérhető károkat okoz. Szerencse, hogy a spam burjánzásával egy időben törvényszerűen megszaporodtak a mindannyiunk rendelkezésére álló védekező eszközök is.

Azok a felhasználók -- és nem kevesen vagyunk így --, akiknek jó oka van arra, hogy nyilvánosan hozzáférhetővé tegyék e-mailcímüket, igen egyszerű trükkökkel csökkenthetik a spamveszélyt. Minthogy a spammerek többnyire robotok segítségével vadásszák a weboldalakon található címeket, kézenfekvő védekezés a publikus e-mailcímeket olyan formában megadni, amely a robotok számára nem értelmezhető. Gyakori megoldás a címet grafikus fájlban
() vagy valamilyen formában módosítva, például kiejtés szerint leírva (valaki kukac szerver pont hu) feltüntetni. E módszereknek csupán az a hátránya, hogy a potenciális levelezőpartnerek számára, minthogy be kell gépelniük a címet, némi kényelmetlenséget jelentenek. Mások decimális ASCII-kóddá konvertálva adják meg e-mailcímüket; így a böngészőkben olvasható formában jelenik meg a cím, a robotok számára azonban -- legalábbis egyelőre -- értelmezhetetlen kódsorozat.

Ma már minden levelezőprogram biztosítja a lehetőséget a felhasználók számára, hogy bizonyos szűrőfeltételeket definiáljanak a beérkező üzenetek szortírozására. Ha az ember veszi a fáradságot néhány tucat olyan levél tanulmányozására, melyeket a jövőben nem szívesen látna levelesládájában, könnyedén kialakítható egy olyan szűrőrendszer, amelyen a spamek jelentős hányada is fennakadhat. A gond az, hogy összetákolt szűrőinken gyakran a valóban nekünk címzett levelek sem csúsznak át, míg a szűrőfeltételek finomítgatása rengeteg időt emészthet fel. Márpedig minek nekünk spamek strukturális elemzésével foglalkozni, amikor már profi szervezetek és vállalatok is szakosodtak erre?

A nyílt forráskódú változatokban szabadon hozzáférhető vagy kereskedelmi spamszűrő alkalmazások egyik alfaját képezik azok a megoldások, amelyek ún. visszaigazoláshoz kötött listákat (whitelist) használnak. Ezek olyan szűrők, amelyek kizárólag e listán található, a címzett által jóváhagyott feladóktól származó üzeneteket engednek át. Ha egy e-mail a listán nem szereplő feladótól származik, a rendszer automatikusan küld egy olyan válaszlevelet a feladónak, amelyre válaszolva az felkerülhet a listára. A módszer igen hatékonyan használható a spamek szűrésére, hiszen azok feladói a legritkább esetekben adnak meg működő válaszcímeket, azonban terhet jelenthet valós levelezőpartnereink számára, és nem tud mit kezdeni a hiteles gépi feladókkal (hírlevelek, értesítések stb.).

Az előző módszer inverzének tekinthetők a feketelistákat alkalmazó megoldások. Ezek a rendszert használó több ezer vagy több millió felhasználó számítógépről érkező adatok alapján egy központi szerveren alakítanak ki adatbázist a spamként megjelölt e-mailekről. A feketelistás szűrőkön szinte bizonyosan nem akad fenn hiteles feladóktól származó levél, ám -- noha a rendszer kifinomult statisztikai módszerek alkalmazásával képes az egyes spammutációk felismerésére is -- a félig-meddig eső után köpönyeg módszer miatt nemigen tud mit kezdeni az újonnan felbukkanó e-mailszeméttel. A technika további hátránya, hogy a központi szerverrel való kommunikáció szükségessége miatt jelentősen lelassul az ellenőrzés és a letöltés.

A legújabb és egyben leggyorsabb spamszűrő alkalmazások szó- és/vagy szövegelemzés révén osztályozzák az e-maileket. E szoftverek első generációs változatai a vírusirtó programokhoz hasonlóan bizonyos mintákat (többnyire szavak, kifejezések) keresnek a levélben: a spamre jellemző minták előfordulásait pontozzák, míg a hiteles levelekre jellemző minták előfordulásait levonják ebből a pontszámból. Ha az üzenet pontszáma meghalad egy beállított határértéket, a program spamként kezeli. Minthogy azonban a mintaadatbázis rendszeres frissítésének ellenére is igen nagy a tévesen spamként azonosított üzenetek aránya, ma egyre többen propagálják a bayesi valószínűség-modellen alapuló elemzést. Az elv itt is hasonló: egyes szavak inkább jellemzőek a spamre, míg mások inkább a hiteles üzenetekre. Egzakt matematikai módszerek alkalmazásával így az e-mailben található szavakat számba véve megállapítható annak spam-valószínűsége. E módszerek egyetlen hátránya, hogy természetükből fakadóan nyelvspecifikusak.

[oldal:Hogyan tovább?]

Az egyre kifinomultabb szűrők azonban csak a tűzoltást szolgálják, ahogy a -- cikkünkben nem érintett -- törvényi szabályozás sem volt képes eddig látványosan visszaszorítani a spam terjedését. Újabban azonban vannak olyan kezdeményezések is, amelyek a probléma megszüntetését célozzák. Az internet infrastruktúráját kidolgozó nemzetközi szervezet, az Internet Engineering Task Force (IETF) például nemrégiben úgy határozott, munkacsoportot hoz létre annak kivizsgálására, hogy milyen technológiai módosításokkal lehetne megszabadítani a hálót a kéretlen levelek tömegétől. A februárban létre jött Anti-Spam Research Group (ASRG) az internet alapjait érintő radikális technológiai változtatásokat javasol a spam ellehetetlenítésére. E megoldások közé tartozik a több mint húszéves Simple Mail Transfer Protocol (SMTP) átalakítása és egy olyan levéltovábbító infrastruktúra kialakítása, amely nagyobb szabadságot adna a felhasználók számára annak meghatározásában, hogy milyen jellegű üzenetekre tartanak igényt, és milyenekre nem.

***

Hasznos linkek:

Spamküldők szégyentáblája: a hazai spammereket pellengérre állító oldal sok hasznos információval. Gyakorlatilag az egyetlen, kifejezetten e témának szentelt magyar nyelvű oldal. Sajnos hosszú ideje nem frissült.
Vikman László: A kéretlen elektronikus reklámok szabályozása. A spam jogi szabályozását áttekintő alapos írás, amely részletesen taglalja a hazai fejleményeket is.
The European Coalition Against Unsolicited Commercial Email: a spam visszaszorítását célzó törvényi szabályozásért lobbizó amerikai CAUCE európai szervezetének honlapja.
Spam Laws: a spammel kapcsolatba hozható törvények gyűjteménye, melyben megtalálhatóak a vonatkozó EU-direktívák és az egyes tagállamok releváns rendelkezései is.
Anti-Spam Research Group: az Internet Engineering Task Force (IETF) munkacsoportjának honlapja, egyelőre kevés érdemi információval.
A nyílt forráskódú Tagged Message Delivery Agent (TMDA) FAQ-jában bőséges lista található a hozzáférhető whitelist alapú megoldásokról.
Néhány feketelistán alapuló spamfilter: Spamnet (Windows), Razor (open source), Pyzor (open source).
SpamAssassin: az egyik legnépszerűbb, szövegelemzésen alapuló alkalmazás.
bogofilter (MacOS X, AIX, FreeBSD, HP-UX, Linux, SunOS/Solaris): a bayesi valószínűség-modellt alkalmazó egyik első szűrő.
Email Address Encoder: egyszerű webes segédeszköz az e-mailcímeknek a böngészők által értelmezhető decimális ASCII-kódokká alakításához.

Szólj hozzá a fórumban!

Spam: a világháló szemete

Az eddig ismert Google Kereső is megy a temetőbe

Rendkívül súlyos sebezhetőséget találtak a PeopleSoftban

Elindult az „AI-ügynökök Stack Overflowja”

Spam: a világháló szemete

Az eddig ismert Google Kereső is megy a temetőbe

Rendkívül súlyos sebezhetőséget találtak a PeopleSoftban

Elindult az „AI-ügynökök Stack Overflowja”

Újra növekedésben a hazai e-kereskedelem

Jóval kevésbé frusztráló ma tévézni, mint pár éve

Megszorongatták a Google-t az AI-összefoglalók miatt

Újra növekedésben a hazai e-kereskedelem

Jóval kevésbé frusztráló ma tévézni, mint pár éve

Megszorongatták a Google-t az AI-összefoglalók miatt