Az ajánlórendszerek története
Egy rövid és felületes áttekintés

Bevezetés
Mindennapi életünk során számtalan alkalommal kerülünk döntési helyzetbe, sokszor akár észrevétlenül. Mit vegyünk fel reggel, ami megfelel a napi programunkhoz? Melyik menüt válasszuk az ebédlőben? Melyik munkához kezdjünk neki előbb? Melyik iskolába irassuk gyermekünket? Ilyen és ehhez hasonló sorsdöntő, vagy éppen hétköznapi kérdések ezreire adunk választ életünk során.
Gyakran ezekben a döntésekben szakértők vagy barátok segítségét kértük a múltban, ám egy ideje rendelkezésünkre állnak más lehetőségek is. A következő olvasmányunk kiválasztásában már nem csak a könyvtáros vagy a könyvesbolti eladó segíthet, hanem akár egy olyan, könyveket (is) árusító weboldal, mint az Amazon. A YouTube által felajánlott videók mind a korábbi böngészéseinken alapulnak, és viszonylag nagy találati aránnyal javasolnak olyan audiovizuális tartalmakat, melyek kedvünkre valók.
Mérhetetlen előnye a barátok javaslatain alapuló, hétköznapi megoldáshoz képest, hogy míg a fent említett oldal a világ legnagyobb videótárának teljes figyelembevételével teszi javaslatait, addig ismerőseink együttes rálátása is ennek csupán töredéke. Ily módon például olyan együttesek dalait is megismerhetjük, akikkel nagy valószínűséggel sosem találkoztunk volna más módon. Ekkor ugyanis nem csak az ismerőseink ajánlhatnak nekünk tartalmakat, hanem a világon mindenki ezt teszi – akaratlanul – az ajánlórendszeren keresztül.
Fontos azonban itt leszögezni, hogy – mint azt a későbbiekben látni fogjuk – az ajánlórendszereknek is megvannak a maguk korlátai, így vélhetően (és remélhetőleg) bizonyos területeken soha nem fognak minket olyan jól ismerni, mint barátaink és rokonaink. Ezeket is megfontolva a cikk írója a látszatát is szeretné elkerülni, hogy a hétköznapi emberi kapcsolatok ajánlórendszerekkel történő kiváltására buzdítana bárkit is. Tekintsük ezeket sokkal inkább egy lehetőségként, mely segíthet a mindennapokban dönteni bizonyos – kevéssé személyes – kérdésekben, megspórolva ezzel magunknak némi időt, vagy ráakadni olyan élményekre, melyek talán örökre elkerültek volna minket ezen rendszerek hiányában.
Egy alternatív definíció
Ajánlórendszer: olyan információ szűrő rendszer, amely egy adott döntési helyzetben a lehetséges opciók halmazának szűkítésével, illetve az elemeinek adott kontextusban történő rangsorolásával támogatja a felhasználót. A rangsorolás történhet a felhasználó explicit vagy implicit módon kifejezett preferenciái alapján, illetve a hozzá hasonló preferenciákkal bíró felhasználók korábbi viselkedésének figyelembe vételével.
Az ajánlórendszerek története
Az információ öröktől fogva elválaszthatatlan részét képezte a természetnek. Mikor érkezik a tél, vagy kelnek útra a madarak; hol találni halat, és hogyan lehet kifogni azokat; mely bogyókat ehetjük meg, és melyek jelentik a biztos halált? Eleink tapasztalatukat átörökítették már az ősidőkben is. A túlélés ösztöne vezérelte őket. Utódaikban magukat látták, s így kívánták, jobbára tudattalanul, halhatatlanságukat megvalósítani. Egyébként sem azért vesződtek az ivadékaikkal, hogy aztán halálukat leljék egy marék bogyó felfalását követően.
Az információ hatalommá csak nemrégiben válhatott, 5 évezreddel ezelőtt, az írás feltalálásával, mely a modern világ alapköve lett. A szó leírása hosszú időre tartósítja a gondolatot. Az emberi lélek rezdüléseit jeleníthetik meg írásos formában, s ezzel új formája született meg az öröklétnek is.
Az információ lényegi megértésére azonban a XX. századig várnunk kellett. Claude Shannon felismerte, egy üzenet információtartalma kizárólag attól függ, mennyiben tér el az átlagostól. Ilyeténképpen nem sok köze van az üzenet tartalmához, vagy annak hosszához, kizárólag az számít, váratlan-e. Ha egy politikus lop, annak manapság semmi információtartalma nincs, de amennyiben kiderül, hogy valamelyikük gondosan kezeli a rábízott közvagyont, az már-már szenzációszámba megy. Ha a tegnapi híreket mondanák be a TV-ben ma is, annak információtartalma nulla, hacsak azt nem számítjuk ide, már azt is tudjuk, hogy a hírszerkesztő megőrült.
Shannon arra is rájött, hogy az információ átalakítható számokká, pontosabban kétállapotú rendszerekké, és ezzel megteremtette az új, információra épülő világrend alapegységét. Az 1 bit tartalmát tekintve 0 vagy 1, igen vagy nem, van vagy nincs, ám ereje abban rejlik, hogy ezek láncolatával bármit lekódolhatunk. A dolgok digitalizálása révén az ember elérhette, hogy az információ ne csak tartós legyen, de szinte végtelen mennyiségben legyen raktározható is, ugyanakkor képesekké váltunk annak villámgyors terjesztésére.
A számítógépek polgári célú elterjedésével párhuzamosan egyre inkább a fejlesztő cégek és kutatók fókuszába került a felhasználói igények egyre szélesebb körű kiszolgálása.
A gépek népszerűségének rohamos növekedése mögött rendkívül komoly erőfeszítések rejlenek, amit az ember és gép közötti “súrlódások” csökkentése érdekében fejtettek ki. A felhasználók számára egyre komfortosabb megoldásokkal tudtak előállni köszönhetően annak, hogy megpróbálták az emberek igényeit megérteni, és számítógép által nyújtott szolgáltatásokat személyre szabni.
Az ajánlórendszerek alapjait a megismeréstudomány [1] és az információ visszanyerés (information retrieval) [2] kutatásai alapozták meg, és az első manifesztációja a Duke Egyetem által a ’70-es évek második felében megalkotott Usenet kommunikációs rendszer [3], amin keresztül a felhasználók szöveges tartalmat oszthattak meg egymással. Ezeket hírcsoportokba és alcsoportokba kategorizálták a könnyebb kereshetőség érdekében, azonban nem direkt módon épített a felhasználók preferenciáira, és nem is célozta azok megismerését.
Az első ilyen irányú ismert megoldás a Grundy nevet viselő számítógépes könyvtáros volt, ami a felhasználókat előbb kikérdezte a preferenciáikról, majd ezt figyelembe véve ajánlott számukra könyveket. A rendszer egészen primitív módszerrel sorolta be az összegyűjtött információ alapján a felhasználót egy sztereotípia csoportba, s így minden azonos csoportba tartozó személy számára ugyanazokat a könyveket ajánlotta. A Grundy megoldásának eredményeiről és annak népszerűségéről a felhasználók körében Rich 1979-es cikkében [1] olvashatunk bővebben. Ma már kissé idejétmúltnak tűnhet ez a megközelítés, de akkor ez egy paradigmaváltás volt az automatizált kiszolgálás terén, hiszen személyre szabottá tették azt. Fontos megjegyezni, hogy ezt a mérföldkövet, akár napjainkban sem minden internetes bolt tette meg.
A Grundy megoldásának azonban gyorsan igen sok kritikusa akadt a tudományos világban. Nisbett és Wilson megfogalmazzák, hogy “az emberek igen gyengék a kognitív folyamataik vizsgálatában és leírásában” [4]. Vizsgálataik szerint az emberek gyakran olyan tulajdonságaikat emelik ki, amivel egy adott csoport többi tagja közül ki tudnak tűnni, amivel megnehezítik a sztereotipizálási törekvéseket. Természetesen előfordulhat az is, hogy egyszerűen csak más képet szeretnénk festeni magunkról.
Ahogyan Észak-Európa egyik legnagyobb bevásárlóközpontjának vezetője, Heli Vainio fogalmaz kissé sarkosan egy korábbi interjújában: “A kérdőívekre úgy válaszolnak az emberek, hogy jobb színben tűnjenek fel. Nem érdekelnek a hazugságok. A tények érdekelnek.” [5]. Éppen ezért fel is szereltette bevásárlóközpontját olyan Wi-Fi berendezésekkel, amivel a látogatókat 2 méteres pontossággal nyomon tudja követni egyénenként az épületen belül és annak közvetlen közelében. A cél, hogy beszéljenek a látogatók helyett a cselekedeteik.
Az ajánlórendszereknek alapvetően két merőben eltérő irányvonala alakult ki az idők folyamán: a kollaboratív szűrés (collaborative filtering) módszere és a tartalom alapú szűrés (content-based filtering). Előbbi esetén a felhasználók ízlésvilágát próbálja a rendszer feltérképezni (profilozni), majd olyan tartalmakat ajánl nekik, amelyeket a hozzá hasonló preferenciákkal bíró felhasználók kedveltek. A tartalom alapú szűrés lényege, hogy az ajánlandó entitás dimenzióit ismerje a rendszer (zenei tartalom ajánló rendszer esetén például az alábbi dimenziók jöhetnek szóba: stílus, előadó, korszak, hangszerelés, stb), illetve a felhasználó ezekre a dimenziókra, vagy karakterisztikára vonatkozó preferenciái. Így valahányszor kedvel egy újabb dalt a felhasználó, a profilját ezekkel az új információkkal bővítik ki.
A kollaboratív szűrés első példája, ahonnan egyébként az elnevezése is származik, a Xerox PARC által kifejlesztett Tapestry rendszer volt, amely a felhasználóinak lehetővé tette, hogy az olvasott dokumentumaikhoz jegyzeteket készítsenek és véleményt nyilvánítsanak azokról (kezdetben bináris formában: kedveli vagy nem kedveli). A felhasználók ezután nem csak a dokumentumok tartalma alapján tudták manuálisan szűkíteni a keresést, de más felhasználók jegyzetei és értékelései alapján is, mely megfelelő felhasználószám elérése után már igen jól tudta rangsorolni a tematikus dokumentumokat relevanciájuk, hasznosságuk alapján [6].
Az 1992-ben induló GroupLens [3] már képes volt automatizált módon ajánlásokat tenni a Usenet cikkekre vonatkozóan, ha a felhasználó előzetesen már értékelt néhány cikket a rendszerben. Ennek mintájára a következő években megannyi tematikus ajánló oldal született, mint például az MIT-nál fejlesztett Ringo, majd később a Firefly zenei ajánló oldalak, vagy a BellCore filmajánló.
Az első megoldás, mely nem csupán egy szűkebb tematikát próbált felölelni, hanem nem kevesebbet, mint magát az internetet, az 1994-ben — akkor még más néven — induló Yahoo! volt. A két stanfordi diák egy tematikus weboldal katalógust készített indexelt oldalakkal, mely igen hamar népszerűségre tett szert, és milliók számára jelentett könnyebb keresést az interneten, és az Alexa-rangsor alapján ma is az 5. leglátogatottabb weboldal.
A tartalom alapú szűrés gyökereit a információ visszanyerés (information retrieval) területén kell keresnünk, melynek technikái közül is igen sokat átörökítettek. Az első dokumentált megoldás Emanuel Goldbergtől származik az 1920-as évekből (ha nem számítjuk ide az 1801-ben bemutatott Jaquard-féle szövőszéket, a Hollerith-lyukkártya elődjét), mely egy olyan “statisztikai gép” volt, ami mintákat keresve a celluloid szalagon igyekezett ott tárolt dokumentumokat automatizált módon megtalálni [7].
Az 1960-as években a Cornwall Egyetemen Salton körül szerveződő kutató csapatnak köszönhetően közel egy évtized alatt alkották meg a szövegek automatikus indexelésére alkalmas modelljüket, mely alapját képezi a ma ismert szövegbányászati eljárásoknak [8]. Az eljárás igen egyszerű: a dokumentumok egyes előre meghatározott ismérvek (dimenziók) mentén kerülnek osztályozásra, melyeket — mint indexeket — egy vektorba gyűjtünk. Minél inkább hasonlít két dokumentum egymásra, az őket leíró vektorok által bezárt szög annál kisebb.
A következő mérföldkő az 1979-ben Doszkocs Tamás által a National Library of Medicine számára kifejlesztett CITE online katalógus rendszer volt, mely nem csupán azt tette lehetővé, hogy a könyveket kategóriák szerint kereshessék a felhasználók, de a keresőszavak alapján relevancia szerint rendezte sorba.
A tartalom alapú szűrés viszonylag későn, a 90-es években nyert önálló létjogosultságot az információ visszanyerés mellékágaként. A késedelem fő oka, hogy egy jól működő tartalom alapú szűrő rendszer megalkotása egy bizonyos témában is igen nagy kihívás, hiszen a feladat nem kevesebb, mint “megérteni” a vizsgálat tárgyát, és a felhasználók hozzá fűződő viszonyát befolyásoló tényezőket.
Az egyik első és igen sikeres kutatás e témában a Music Genome Project 1999-ben, melynek célja a zene “megértése” és megragadása tulajdonságain keresztül. Ennek érdekében több mint 450 ilyen tulajdonságot tártak fel, és írták le azok viszonyát algoritmus segítségével. Az eljárás lényege, hogy amennyiben a felhasználó kedvel egy adott dalt, akkor annak adott tulajdonságaihoz (úgy mint stílus, korszak, előadó, hangszerelés, ütem, stb.) a rendszer pozitív értékeket rendel. A hasonló tulajdonságokkal bíró dalok ezután szintén előrébb lesznek sorolva a preferencia listán, és a felhasználó figyelmébe ajánlják. Hatalmas előnye a kollaboratív szűréssel szemben, hogy igen kevés információ is elég az indulásnál, míg az előbbinél sajnos igen sok felhasználó és sok visszajelzés szükséges, hogy hasonló ízlésvilágú embereket tudjon a rendszer azonosítani. Hátránya azonban, hogy jellemzően nehezen, vagy nem tud olyan ajánlásokat tenni, amelyek a felhasználó által hallgatott zenék köréből kivezetne, hiszen nem alapoz felhasználók közötti hasonlóságra, csak a zene, mint entitás tulajdonságainak “megértésére”. A 250 millió felhasználót számláló Pandora Internet Radio működése ezen a projekten alapszik mindmáig [9].
Az első olyan megoldás, mely ötvözte a kollaboratív- és a tartalom alapú szűrési megoldásokat, az 1994-ben bemutatott, stanfordi diákok által fejlesztett Fab [10]. Kiemelik, hogy a hibrid rendszerrel az a céljuk, hogy a kétféle eljárás addigra ismertté vált hátrányait kiküszöböljék. Modelljük két alapvető folyamatból áll: először specifikus témákhoz gyűjtenek tartalmakat (például weboldalakat vagy cikkeket pénzügyi témában), majd minden adott felhasználó számára kiválogatják az egyes témakörökből azokat a begyűjtött elemeket, melyek speciálisan őt nagy valószínűséggel érdeklik, és végül ezek a tartalmak jutnak el hozzá.
A kétféle megközelítés ötvözése igen sokféle módon képzelhető el: beágyazható az egyik eljárás a másikba, ahogyan a Fab példáján láthattuk, vagy lehetséges egy közös ajánlást adni a két eljárás eredőjeként, ahogyan a Netflix teszi. A Netflix algoritmusa, a CineMatch volt a 2000-es évek elejének legsikeresebb ajánlórendszere a online film eladások területén. Igen komoly katalizátora volt az ezirányú kutatásoknak, és rohamos fejlődésnek indult az a tudományterület, mely — mint láthattuk — csak a 90-es években kapott önálló létjogosultságot. A 2006-os Netflix-díj kihívása volt, hogy az általuk elérhetővé tett 100 millió filmes értékelés alapján olyan ajánló algoritmust kellett készíteni, mely legalább 10%-kal jobb ajánlásokat tesz, mint a CineMatch eredményei. Az 1 millió dolláros fődíjat 2009-ben egy olyan megoldásért ítélték oda, mely 107 különböző algoritmust foglalt magában, és keverte azok ajánlásait a körülmények függvényében [11]. Nem hagyhatjuk ki a sorból az online ajánlórendszerek ma létező legnagyobb példáját, az amazon.com-ot, mely kollaboratív filterezési technika alapján ajánl a felhasználónak termékeket, figyelembe véve a korábban böngészett és megvásárolt termékeket, valamint azt, amit jelenleg éppen megszemlél.
Ezt a technikát megannyi internetes bolt használja ma már annak érdekében, hogy eladási mutatóikat javítsák. Az online vásárlói térben működő ajánlórendszerek célja, hogy a vevők aktuális ízlésvilága és igénye szerint, személyre szabottan rendeznék be a kirakatot. Ez szinte behozhatatlan versenyelőnyt jelent az online boltok számára a hagyományos, személyes áruházi vásárásokkal szemben, melyek egyetlen fegyvere, hogy kézzel tapintható vagy felpróbálható a termék. Manapság sokkal inkább jellemző, hogy a bolti próba után inkább online rendelik meg a termékeket, vagy élve a termék visszaküldés lehetőségével, próba nélkül vásárolnak az online kereskedőknél [12].
Zárszó
Az ajánlórendszerek mára széles körben elterjedtek és az információ áradattól fuldokló felhasználók körében még akkor is nagy népszerűségnek örvendenek, ha sokan tudják, csak egy újabb terméket szándékoznak eladni nekik. Ezen megoldások sikeressége azonban vitathatatlan, és visszavonhatatlanul életünk részévé vált, gondoljunk csak a YouTube-ra vagy a Facebookra [13].
Hivatkozások
[1] E. Rich (1979): User modeling via stereotypes, Cognitive Science, Vol. 3, No. 4, pp. 329–354.
[2] M. Sanderson – W. B. Croft (2012): The History of Information Retrieval Research, Proceedings of the IEEE, Vol. 100, pp. 1444–1451.
[3] P. Resnick – N. Iacovou – M. Sushak – P. Bergstrom – J. Riedl (1994): GroupLens: An open architechure for collaborative filtering of netnews, In Proceedings of the ACM Conf. Computer Support Cooperative Work (CSC),pp. 175-186.
[4] R. E. Nisbett – T. D. Wilson (1977): Telling more than we can know: Verbal reports on mental processes, Psychological Review, Vol. 84, No. 3. pp. 231-259.
[5] http://www.walkbase.com/blog/nordics-largest-shopping-centre-wi-fi-analytics-will-drive-our-marketing-decisions
[6] D. Goldberg – B. Oki – D. Nichols – D. B. Terry (1992): Using Collaborative Filtering to Weave an Information Tapestry, Communications of the ACM, December, Vol. 35, No. 12, pp. 61-70.
[7] M. Sanderson – W. B. Croft (2012): The History of Information Retrieval Research, Proceedings of the IEEE, Vol. 100, pp. 1444–1451.
[8] G. Salton – A. Wong – C. S. Yang (1975): A vector space model for automatic indexing, Communications of the ACM, Vol.18, No.11, pp. 613-620.
[9] M.H. Ferrara – M. P. LaMeau (2012): Pandora Radio/Music Genome Project. Innovation Masters: History’s Best Examples of Business Transformation. Detroit. pp. 267-270. Gale Virtual Reference Library.
[10] M. Balabanovic – Y Shoham (1997): Fab: Content-based, Collaborative Recommendation, Communications of the ACM, Vol.40, No.3, pp.66-72.
[11] https://en.citizendium.org/wiki/Recommendation_system
[12] http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html?_r=0
[13] J. B. Schafer – J. A. Konstan – J. Riedl (2001): E-Commerce recommendation applications, Data Mining and Knowledge Discovery, Vol. 5, No. 1, pp. 115–153.
Az ajánlórendszerek története
Szerző: Apáthy Sándor
Data science és analytics szolgáltatás

Tekintse meg további bejegyzéseinket!
SAP RISE konferencia 2023
Beszámoló cégünk a Digitális Transzformációs napok eseménysorozat SAP RISE 2023 konferencia első napján tartott előadásáról.
Onespire és Mindspire közös síelés 2023 – Ausztria
A hagyományokat folytatva idén a Onespire és a Mindspire közös síelést szervezett Kreischbergbe.
Onespire All-Staff Meeting 2023
A hagyományosan megrendezésre kerülő évindító Onespire eseménynek idén a Larus Étterem és Rendezvényközpont adott otthont.