Szerző: Folyó Gergely

2011. december 9. 09:12

A különbségekre koncentrál az új képkereső algoritmus

A képek algoritmizált párosítását ugyan jelenleg is több területen alkalmazzák, a technológiának még van hova fejlődnie - a Carnegie Mellon Egyetem kutatói erre hívják fel a figyelmet legújabb projektjükkel.

A képek párosítása alapvetően hasznos célokat szolgál, elég a Google Goggles nevű okostelefonos alkalmazására gondolni, ami az éppen elkészített fotó alapján keresi meg a weben, hogy a felhasználó milyen nevezetesség előtt áll, vagy hol tudja megvenni a lefényképezett könyvet.  A kereséshez köthető alkalmazásokon kívül más területeken is bevethetők az ehhez hasonló módszerek, noha bizonyos körülmények között akaratlanul is elvéreznek. A jelenleg használt képpárosító eljárások a fotók közötti hasonlóságot figyelik, ezért ha egy templomot télen és nyáron is lefotózunk, az algoritmusok talán felismernék, hogy a képek templomokat ábrázolnak, azt viszont már nem, hogy ugyanaz az épület van rajtuk.

Beszélik a nyelvet, de nem értik

A Carnegie Mellon Egyetem kutatói Alexei Efros és Abhinav Gupta professzorok vezetésével olyan eljárást dolgoztak ki, amivel ez a baki áthidalható, sőt újabb lehetőségek felé nyitottak kaput vele: az “adatvezérelt egyediség” becenevet viselő módszerrel az sem lehetetlen, hogy egy autóról készült rajzhoz keressünk olyan fotókat, amik leginkább hasonlítanak hozzá. A tudósok szerint meglepően egyszerű, de az emberi észleléshez jobban hasonlító fejlesztést a jövő heti SIGGRAPH Asia konferencián mutatják majd be részleteiben.

“A legtöbb számítógépes módszer magához a nyelvhez kötődik, és nem a nyelv jelentéseihez” - példázza a számítógépes módszerek és az emberi gondolkodás alapvető különbségét Efros. A most használt módszerek a formák, színek és beállítások közti hasonlóságokra koncentrálnak, és többnyire kiválóan teljesítenek, amíg a képek valóban hasonlóak: ha a fenti templomos példához hasonló körülményeket teremtünk, tehát az előttünk álló épületről más napszakban, évszakban készült fotót, esetleg festményt vagy rajzot szeretnénk keresni, a pixelek szintjén rendkívül eltérő képek között válogathatunk, amivel az algoritmusok sem tudnak mit kezdeni.

<

04:36
 

Data-driven Visual Similarity for Cross-domain Image Matching (SIGGRAPH Asia, 2011) (HD)

Még több videó

A hasonlóságot kereső eljárásoknál szintén probléma, hogy a képek egyes részei - például a felhős égbolt - úgy mutatnak azonosságot, hogy közben sem jelentőségük, sem pedig közük nincsen egymáshoz, hiszen az épületek fotóin és tájképeken jó eséllyel mindig látszódik az égbolt, ami több esetben téves felismeréshez vezethet. A kutatók ekkor gondoltak az első blikkre pofonegyszerűnek tűnő ötletre: a képeken nem a hasonlóságokat, hanem az egyedi jellemzőket kell megkeresni, majd ezek alapján kell párosítani őket; olyan jellemzőkre kell gondolni, amik a nyári és a téli képen, vagy a fotón és a rajzon ugyanúgy megvannak.

Toxikus vezetők szivárványa

Az IT munkakörülményeket, a munkahelyi kultúrát alapjaiban határozzák meg a vezetők, főleg ha még toxikusak is.

Toxikus vezetők szivárványa Az IT munkakörülményeket, a munkahelyi kultúrát alapjaiban határozzák meg a vezetők, főleg ha még toxikusak is.

Az egyedi jellemzők felmérése egy hatalmas adatbázis segítségével történik, amiben véletlenszerűen válogatott képek kaptak helyet. A fotókon, rajzokon, festményeken azokat a részeket tekintették egyedinek, amik ténylegesen különböznek a többi képtől: a kutatók példája szerint a párizsi Diadalív és az előtte pózoló ember közül az épület kap nagyobb súlyt a számítások során, hiszen nyilvánvaló, hogy sok másik fotón áll majd egy ember.

Hol is készült ez a kép?

A képpárosítás a hagyományos keresőkkel együtt érdekes lehetőségeket tartogat, kis szerencsével egy százéves fotó alapján megtudhatjuk, hogy az hol készült, sőt a régi nyaralások képeit is elővehetjük, hogy a GPS-koordinátákkal megjelölt párjukat kikeresve beazonosítsuk, merre jártunk pontosan. Hosszú távon a gépi látás területén érhetnek el fontos áttörést a kutatók: a robotok csak néznek, és nem látnak, a kamerájuk elé kerülő tárgyak hatékony azonosításához elvezető áttörésre még vár a tudomány.

Nagyon széles az a skála, amin az állásinterjú visszajelzések tartalmi minősége mozog: túl rövid, túl hosszú, semmitmondó, értelmetlen vagy semmi. A friss heti kraftie hírlevélben ezt jártuk körül. Ha tetszett a cikk, iratkozz fel, és minden héten elküldjük emailben a legfrissebbet!

a címlapról