Udomačena statistika

Študenti statistike pišemo blog.


Komentiraj

Vzorčenje v dobi masivnih podatkov

“Kdaj lahko rešeš, da imaš “big data”? Ko je datoteka tako velika, da je ne moreš odpreti na svojem računalniku.” Nekako takole smo se, malo za hec malo za res, do masivnih podatkov (slovenski izraz za “big data”) opredelili na večerji s kolegom, ki dela na Googlu,  ko je pred letom ali dvema obiskal naš raziskovalni center. “Big data” v marsikaterih krogih velja za modno muho (“buzzword”), saj se zadnje čase uporablja vsevprek – bil je na primer ena izmed glavnih tem na lanskih konferencah AAPOR in Webdatanet ter tudi osrednja tema Statističnega dne. Sicer pa imajo masivni podatki že več desetletno zgodovino in za marsikoga, ki se ukvarja z obdelavo podatkov in statistiko, taka podatkovja, niso nič novega. Res pa je, da tako velikost kot obseg tovrstnih podatkov vse hitreje naraščata.

Masivni podati pomenijo številne priložnosti za praktično uporabo na več področjih – o tem je na primer govori Kennet Cukier (urednik pri reviji The Economist)  v TED videu ‘Big data is better data’ – v tej objavi pa nas nasprotno zanimajo predvsem izzivi, ki jih prinašajo za delo nas, statistikov. Čeprav masivni podatki zaradi kompleksnosti in velikosti zahtevajo drugačne pristope k analizi, ti pristopi še vedno stojijo na starih temeljih, so ugotavljali na okrogli mizi na lanskem Statističnem dnevu. Pa tudi zbiranje podatkov s spraševanjem bo še dolgo relevantno.

Kakšna pa je v dobi masivnih podatkov vloga vzorčenja, tj. izbiranja enot iz populacije v vzorec? Zakaj se zadovoljiti  le z vzorcem enot, če lahko dostopamo do celotne populacije? En razlog je seveda to, da je včasih manj več – bolj kot velikost podatkovja je namreč pomembno to, da podatki koneceptualno ustrezajo temu, kar želimo meriti. Toda tudi v primeru, da masovovni podatki niso pristranski, se v praksi še vedno uporablja vzorčenje. Zakaj? Če se vrnem k večerji, s katero sem začela ta prispevek. Kolega z Googla nam je povedal zgodbo, kako je od statistika na sosednjem oddelku potreboval določeno poizvedbo in bil presenečen, da je ta ni pognal na celotni bazi, ampak le na vzorcu podatkov. Podatkovna baza je bila namreč tako masivna, da jih  niti z najboljšimi računalniki ne zmorejo učinkovito obdelati.

Na to anekdoto sem se spomnila lani, med gledanjem tretje sezone ameriške nadaljevanke House of cards. Doug Stamper (Michael Kelly), išče Rachel Posner (Rachel Brosnahan), ki bi lahko bila pomembna priča v morebitnem procesu proti predsedniku Franku Underwoodu (Kevin Spacey). Obrne se na hekerja Gavina Orsaya (Jimmi Simpson), ki je zaposlen na FBI oddelku za kibernetski kriminal. Gavinu uspe dostop do posnetkov prometnih kamer, v katerih potem išče njen obraz. Vendar je podatkov veliko preveč, da bi zmogel obdelati vse, zato s tehnologijo zaznavanja obraza pregleduje samo slučajno izbran vzorec 10% posnetkov. Vzorca ne more povečati, saj bi to sprožilo varnostne alarme.

HoC1-MOTION

Če še kdo ni gledal tretje sezone serije in se želi izogniti kvarnikom, naj ta odstavek preskoči. Za optimizacijo iskanja Gavin potrebuje dodatne informacije o Rachel, zato se spoprijatelji z njeno nekdanjo prijateljico Liso Williams (Kate Lyn Sheil). Od dekleta izve, da sta se pogovarjali o pobegu v zvezno državo Nova Mehika. Na podlagi teh podatkov lahko Gavin iskanje omeji na manjši obseg in mu jo uspe izslediti. Kako se zgodba konča, pa si sami poglejte.

Danes se je začela nova sezona nadaljevanke in zanimivo bo videti, ali bo statistika spet imela kakšno posebno vlogo v zgodbi. Ta se v filmih, nadaljevankah in na sploh v popularni kulturi tako redko pojavlja, da smo toliko bolj pozorni še na najmanjšo omembo.

Svet, kjer ne bi potrebovali inferenčne statistike,  pa je zaenkrat še domena znanstvene fantastike.

Advertisements


Komentiraj

Dan spletnega anketiranja 2015

Dan spletnega anketiranja (DSA) je dogodek, ki ga, od leta 2012, enkrat letno organizira Center za družboslovno informatiko Fakultete za družbene vede. Dogodek je namenjen tako strokovni javnosti kot tudi vsem, ki uporabljajo spletno anketiranje kot način za zbiranje podatkov.

12041984_10153170081878946_563905866_n

Dan spletnega anketiranja na Fakulteti za družbene vede (Foto: Marija Paladin)

Dogodek je bil sestavljen iz dveh delov. Dopoldanski del je bil namenjen prihodnosti spletnih anket ter predstavitvi knjige Web Survey Methodology. O prihodnosti spletnih anket je govoril dr. Mario Callegaro, višji raziskovalec na Google London Nadaljujte z branjem


5 komentarjev

Včasih je manj več ali uvod v inferenčno statistiko

Kar ne morem verjeti, da že več kot dve leti pišemo blog in se še nismo lotili vzorčenja. Sama sem to temo že večkrat skoraj načela pa sem si vsakič premislila. O tem ne morem pisati, ne da bi prej povedala zgodbo, ki me je navdušila za inferenčno statistiko, tj. sklepanje o lastnostih populacije na podlagi vzorca enot. Zgodbo o anketi, ki je spremenila način, kako se delajo ankete.Prvič sem jo slišala v 2. letniku študija družboslovne informatike, nato pa spet v 1. letniku študija Statistike. Nadaljujte z branjem


1 komentar

Kako porabljamo čas?

Iztočnica za ta zapis je knijga, v kateri ni nobene statistike (v ožjem pomenu besede) in nobenega statistika, a je odlično izhodišče za statistično razmišljanje o spremljanju dnevnih rutin. Gre za Daily rituals: How Artists Work, zbirko opisov rutin 161 umetnikov in znanstvenikov. Knjiga je nastala na podlagi bloga Daily Routines, na katerem je Mason Curey, od leta 2007 naprej objavljal anekdote o vsakdanjikih znanih ustvarjalcev, ki jih je našel v različnih člankih na spletu. Priporočila sem jo že v MetaPHoDcast pogovoru, ko sem bila vprašana, ali si želim več prostega časa. Časa imam verjetno dovolj, sem odgovorila, težava je v tem, da nisem najbolje organizirana. V hitrem tempu življenja vsi hrepenimo po večji učinkovitosti, zato se, verjamem, od ustvarjalcev, ki so se vpisali v zgodovino, lahko veliko koristnega naučimo. Nadaljujte z branjem


1 komentar

Zakaj je pivo tako dobro ali kdo je Student?

Kdor se je že vsaj malo ukvarjal s statistiko, je verjetno že slišal za Studentov t-test. Morda pa ni tako znano, zakaj je ta test nastal in kako je dobil svoje ime …

By User Wujaszek on pl.wikipedia [Public domain], via Wikimedia Commons

Vir: Wikipedia

William Sealy Gosset je leta 1899, pri 23 letih, na Oxfordu diplomiral  iz kemije in matematike. Istega leta je začel delati v varilnici piva Guinness, kjer so ga angažirali predvsem zaradi njegovega znanja kemije (kot je opisano v knjigi: The Lady Tasting Tea). Za varilnico je bil dobra pridobitev, saj se je izkazal tudi kot dober administrator in sčasoma je napredoval do vodje enote za širše območje Londona. Nadaljujte z branjem


Komentiraj

Sam svoj Kupid

Uporaba spletnih portalov za spletne zmenkarije narašča in s tem postajajo njihove podatkovne baze vedno bolj zanimive za tiste, ki želijo raziskovati, kako ljudje dandanes iščejo partnerja. Predvsem gre za spletno analitiko, torej t.i. organske podatke, a v določeni meri tudi za načrtovane podatke, saj uporabniki ob vključitvi dobijo v izpolnitev vsaj obrazec, včasih pa celo daljši niz vprašanj. Nadaljujte z branjem


2 komentarja

Vloga statistike pri dešifriranju Enigme

Alan Turing (Vir: Wikipedija)

Te dni se v kinodvoranah vrti zgodovinska drama Igra imitacije, ki je nastala po knjižni predlogi Andrewa Hodgesa, Alan Turing: The Enigma. Film pripoveduje zgodbo o britanskem matematiku Alanu Turingu, očetu računalništva in umetne inteligence, ki se je med med 2. svetovno vojno s skupino strokovnjakov trudil razvozlati sporočila nemških vojaških podmornic šifrirana z napravo Enigma. Zgodovinarji ocenjujejo, da so odkritja Turinga in njegovih kolegov pripomogla k skrajšanju vojne za vsaj dve leti ter s tem rešila vsaj 14 milijonov življenj. Pri dešifriranju Enigme in strategiji uporabe rezultatov je imela zelo pomembno vlogo tudi statistika. Nadaljujte z branjem