Udomačena statistika

Študenti statistike pišemo blog.

Sam svoj Kupid

Komentiraj

Uporaba spletnih portalov za spletne zmenkarije narašča in s tem postajajo njihove podatkovne baze vedno bolj zanimive za tiste, ki želijo raziskovati, kako ljudje dandanes iščejo partnerja. Predvsem gre za spletno analitiko, torej t.i. organske podatke, a v določeni meri tudi za načrtovane podatke, saj uporabniki ob vključitvi dobijo v izpolnitev vsaj obrazec, včasih pa celo daljši niz vprašanj.

Portal, ki zelo dobro razume pomen zbiranja različnih podatkov, je OkCupid.com, kjer ujemanje med uporabniki računajo na podlagi tisoč vprašanj o različnih temah, od religije in politike do ljubezni in spolnosti. Vsak uporabnik v povprečju odgovori na 350 izmed teh vprašanj, ki se sproti naključno izbirajo. Poleg tega pa uporabnik oceni tudi pomembnost posameznih vprašanj, kar je še en parameter, ki ga uporabijo Kupidovi algoritmi. Eden izmed soustanoviteljev, Christian Rudder, po izobrazbi matematik, celo piše blog OkTrends, kjer objavlja statistične analize podatkov o obnašanju uporabnikov ter o njihovih preferencah. Najbolj bran zapis na blogu je na primer analiza učinkovitosti sporočil, ki si jih pošiljajo uporabniki.

optimalcupid

Cristopher McKinlay: Optimal Cupid: Mastering the Hidden Logic of OkCupid

Toda Kupidovi algoritmi ne delujejo vedno optimalno za uporabnika. Uporabnikov, s katerimi dosežemo zelo visoko stopnjo ujemanja,  je relativno malo v primerjavi s skupnim številom ustreznih uporabnikov, je ugotovil Chris McKinlay, takrat doktorski študent matematike na UCLA. Zaradi naključnega izbora vprašanj namreč ženske, s katerimi bi se lahko ujemal, ne dobijo enakih vprašanj, kar znižuje njihovo stopnjo ujemanja. Da je ugotovil, katera vprašanja so pomembna za ženske, ki bi mu potencialno lahko bile všeč, je uporabil statistiko. Ustvari je dvanajst lažnih OkCupid profilov in napisal Python skripto, ki je pregledovala profile žensk v njegovi ciljni skupini ter zbirala informacije o njih. Dostopni so samo podatki vprašanj, na katera je tudi sam odgovoril, zato je napisal tudi skripto, ki je za vse lažne profile podajala naključne odgovore na prav vsa vprašanja. Skripte so zaradi varnostnih mehanizmov OkCupida morala delovati čim bolj naravno, kar je zagotovil s simuliranjem človeške hitrosti klikanja in tipkanja. Po treh tednih je imel podatke dvajset tisoč različnih žensk, ki jih je nato s K-Modes algoritmom razvrstil v sedem skupin glede na njihove odgovore na vprašanja. Zanesljivost razvrstitve je preveril na podvzorcu pet tisoč žensk, ki so se portalu pridružile v zadnjem mesecu. Nato je ročno pregledal nekaj profilov v vsaki od sedmih skupin ter obdržal dve, ki sta vsebovali tip žensk, ki mu ustreza demografsko in po interesih. Na teh dveh skupinah je nato uporabil tekstovno rudarjenje, da je ugotovil, kaj jih zanima. Poleg tega je izbral petsto vprašanj, ki so bila za ti dve skupini najpomembnejša, in na njih iskreno odgovoril. Algoritme je uporabil le za uteževanje pomembnosti vprašanj.

Na tej podlagi je McKinlay ustvaril dva profila z različnima slikama – na eni je plezal, na drugi pa igral kitaro. V obeh profilih so bili odgovori na vprašanja enaki, le ocene pomembnosti vprašanj so bile drugačne. Da so ga uporabnice opazile, je nato napisal skripto, ki je obiskovala njihove profile. Sporočila so začela deževati in po dvajsetih zmenkih je začel opažati dodatne razlike med skupinama. Sčasoma je dojel, da ga prva skupina ne zanima in zato zbrisal prvi profil ter se bolj osredotočil na drugega. Na oseminosemdesetem zmenku je spoznal žensko, s katero sta sledila še dva zmenka, nato pa sta oba zaprla svoja OkCupid računa. Ni je odvrnilo niti njegovo priznanje, da je svoj profil optimiziral s pomočjo algoritmov – zgodba se ji je zdela zabavna. O svojem iskanju ljubezni z uporabo matematike in statistike je McKinlay napisal knjigo Optimal Cupid: Mastering the Hidden Logic of OkCupid.

Na podoben, a nekoliko manj kompleksen način je svojega življenjskega partnerja našla tudi Amy Webb, raziskovalka trendov v digitalnih medijih in obnašanja potrošnikov. Ustvarila je sistem za ocenjevanje profilov kandidatov ter ustvarila deset lažnih moških profilov, da je proučila svojo konkurenco ter na tej podlagi izpopolnila svoj profil. Svoj pristop in zgodbo predstavi v TED govoru How I hacked online dating, napisala pa je tudi knjigo Data, a Love Story.

Kaj pa v Sloveniji? Kolikor mi je znano, se pri nas še nihče ni lotil iskanja partnerja z uporabo statistike in algoritmov za optimizacijo profila, čeprav so portali za iskanje partnerjev tudi pri nas zelo popularni. Na to temo je bilo opravljenih nekaj raziskav, ki so tudi objavljene, in sicer:

Upam in verjamem, da so te informacije koristne – tako za tiste, ki ste samski, kot navdih pri iskanju partnerja, pa tudi za ostale, da boste imeli nekaj zanimivega za povedati svojemu partnerju ali partnerici, ko ga/jo naslednjič vidite.

Advertisements

Avtor: Ana Slavec

Doktorica statistike in raziskovalka na Arhivu družboslovnih podatkov na Fakulteti za družbene vede. Je članica upravnega odbora Društva mlada akademija, urednica bloga Udomačena statistika ter sovoditeljica Meta PHoDcasta. Na Twitterju je @aslavec.

Oddajte komentar

Fill in your details below or click an icon to log in:

WordPress.com Logo

Komentirate prijavljeni s svojim WordPress.com računom. Odjava / Spremeni )

Twitter picture

Komentirate prijavljeni s svojim Twitter računom. Odjava / Spremeni )

Facebook photo

Komentirate prijavljeni s svojim Facebook računom. Odjava / Spremeni )

Google+ photo

Komentirate prijavljeni s svojim Google+ računom. Odjava / Spremeni )

Connecting to %s