Udomačena statistika

Študenti statistike pišemo blog.


Komentiraj

Vzorčenje v dobi masivnih podatkov

“Kdaj lahko rešeš, da imaš “big data”? Ko je datoteka tako velika, da je ne moreš odpreti na svojem računalniku.” Nekako takole smo se, malo za hec malo za res, do masivnih podatkov (slovenski izraz za “big data”) opredelili na večerji s kolegom, ki dela na Googlu,  ko je pred letom ali dvema obiskal naš raziskovalni center. “Big data” v marsikaterih krogih velja za modno muho (“buzzword”), saj se zadnje čase uporablja vsevprek – bil je na primer ena izmed glavnih tem na lanskih konferencah AAPOR in Webdatanet ter tudi osrednja tema Statističnega dne. Sicer pa imajo masivni podatki že več desetletno zgodovino in za marsikoga, ki se ukvarja z obdelavo podatkov in statistiko, taka podatkovja, niso nič novega. Res pa je, da tako velikost kot obseg tovrstnih podatkov vse hitreje naraščata.

Masivni podati pomenijo številne priložnosti za praktično uporabo na več področjih – o tem je na primer govori Kennet Cukier (urednik pri reviji The Economist)  v TED videu ‘Big data is better data’ – v tej objavi pa nas nasprotno zanimajo predvsem izzivi, ki jih prinašajo za delo nas, statistikov. Čeprav masivni podatki zaradi kompleksnosti in velikosti zahtevajo drugačne pristope k analizi, ti pristopi še vedno stojijo na starih temeljih, so ugotavljali na okrogli mizi na lanskem Statističnem dnevu. Pa tudi zbiranje podatkov s spraševanjem bo še dolgo relevantno.

Kakšna pa je v dobi masivnih podatkov vloga vzorčenja, tj. izbiranja enot iz populacije v vzorec? Zakaj se zadovoljiti  le z vzorcem enot, če lahko dostopamo do celotne populacije? En razlog je seveda to, da je včasih manj več – bolj kot velikost podatkovja je namreč pomembno to, da podatki koneceptualno ustrezajo temu, kar želimo meriti. Toda tudi v primeru, da masovovni podatki niso pristranski, se v praksi še vedno uporablja vzorčenje. Zakaj? Če se vrnem k večerji, s katero sem začela ta prispevek. Kolega z Googla nam je povedal zgodbo, kako je od statistika na sosednjem oddelku potreboval določeno poizvedbo in bil presenečen, da je ta ni pognal na celotni bazi, ampak le na vzorcu podatkov. Podatkovna baza je bila namreč tako masivna, da jih  niti z najboljšimi računalniki ne zmorejo učinkovito obdelati.

Na to anekdoto sem se spomnila lani, med gledanjem tretje sezone ameriške nadaljevanke House of cards. Doug Stamper (Michael Kelly), išče Rachel Posner (Rachel Brosnahan), ki bi lahko bila pomembna priča v morebitnem procesu proti predsedniku Franku Underwoodu (Kevin Spacey). Obrne se na hekerja Gavina Orsaya (Jimmi Simpson), ki je zaposlen na FBI oddelku za kibernetski kriminal. Gavinu uspe dostop do posnetkov prometnih kamer, v katerih potem išče njen obraz. Vendar je podatkov veliko preveč, da bi zmogel obdelati vse, zato s tehnologijo zaznavanja obraza pregleduje samo slučajno izbran vzorec 10% posnetkov. Vzorca ne more povečati, saj bi to sprožilo varnostne alarme.

HoC1-MOTION

Če še kdo ni gledal tretje sezone serije in se želi izogniti kvarnikom, naj ta odstavek preskoči. Za optimizacijo iskanja Gavin potrebuje dodatne informacije o Rachel, zato se spoprijatelji z njeno nekdanjo prijateljico Liso Williams (Kate Lyn Sheil). Od dekleta izve, da sta se pogovarjali o pobegu v zvezno državo Nova Mehika. Na podlagi teh podatkov lahko Gavin iskanje omeji na manjši obseg in mu jo uspe izslediti. Kako se zgodba konča, pa si sami poglejte.

Danes se je začela nova sezona nadaljevanke in zanimivo bo videti, ali bo statistika spet imela kakšno posebno vlogo v zgodbi. Ta se v filmih, nadaljevankah in na sploh v popularni kulturi tako redko pojavlja, da smo toliko bolj pozorni še na najmanjšo omembo.

Svet, kjer ne bi potrebovali inferenčne statistike,  pa je zaenkrat še domena znanstvene fantastike.


1 komentar

Sam po SURSu, se sprehajam, grafe rišem, deklica ti

Še pomnite tovariši, ko nas je v večjem delu Slovenije prizadela ujma, ki je živi spomin ne pomni? Govorim seveda o februarskem žledu leta 2014. Posledic še danes nismo uspeli odpraviti v celoti, kar z vidika organizmov v gozdu seveda ni problem.

V prvih dneh po ujmi je bil del Slovenije odrezan od sveta, saj je bilo veliko gospodinjstev brez električne energije. Takrat sem postavil hipotezo, da bo to super čas za negledanje televizije (pomežik pomežik, dreg s komolcem) in bo po gestacijski dobi značilni za človeka (to je doba devetih mesecev, ko se zarodek razvija v materi) mogoče zaznati povečano število rojstev. V letu 2016 je to s pomočjo statističnih podatkov, ki jih vodi Statistični urad republike Slovenije (v nadaljevanju: SURS), moč preveriti.

S strani o Prebivalstvu sem posnel podatke o rojstvih po mesecih za zadnja štiri leta. Če 10.2.2014 prištejemo 240 dni (kolikor časa v povprečju traja nosečnost), dobimo kot rezultat 8.10.2014. Poglejmo število rojstev v septembru in novembru, predvsem pa oktobru. Continue reading


5 Komentarjev

Štiri anketne napake na primeru predreferendumskih anket

V nedeljo bo potekal zakonodajni referendum, na katerem se bo glasovalo o vprašanju, ali naj se uveljavi Zakon o spremembah in dopolnitvah Zakona o zakonski zvezi in družinskih razmerjih (ZZZDR-D), ki ga je Državni zbor sprejel 3. marca 2015. Glas ZA bo podprl spremembo besedila 3., 12. in 16. člena zakona, kar bo omogočilo, da lahko zakonsko zvezo skleneta tudi osebi istega spola.

IMG_2540

Istospolna poroka v Redwood National Park v Kaliforniji, ki sem ji – povsem po naključju – prisostvovala ob obisku parka maja 2014. V Kaliforniji so istospolne poroke legalne od junija 2008.

Kakšen izid referenduma lahko pričakujemo? Continue reading


Komentiraj

Prejeli smo priznanje odličnosti statističnega poročanja v medijih

Snovalci bloga Udomačena statistika smo prejeli priznanje za Odličnost statističnega poročanja v medijih za leto 2015. To je priznanje, ki ga Statistično društvo Slovenije vsako leto “podeli novinarju ali drugemu poročevalcu, ki v medijih strokovno pravilno poroča o statistiki ali uporabi statistiko na način, ki presega običajno raven. Priznanje se lahko podeli tudi za medijsko poročanje o statistiki, ki prispeva k večjemu ugledu statistične stroke v najširši javnosti,” je zapisano v društvenem pravilniku o podeljevanju priznanj.

20151208_161522

Ana Slavec in prof. dr. Andrej Blejec, predsednik Statističnega društva Slovenije

Veseli smo, da je naše delo na področju promocije statistike cenjeno in v čast nam je, da smo se se s tem znašli v imenitni družbi nagrajencev iz preteklih let, uredništva Dnevnikovega Objektiva, Slavka Jeriča, avtorja portala Športni SOS in uredništva časnika Delo. Čeprav sami nimamo takega dosega kot prejšnji dobitniki – v aktivnih mesecih nas glede na WordPress statisitko obišče okrog Continue reading


2 Komentarjev

Pogovor z Mihaelom Permanom

Mihael Perman je prvi Slovenec, ki je doktoriral iz statistike. Ker študija statistike takrat pri nas še ni bilo (na nobeni stopnji), je doktorat z naslovom “Random discrete measures derived from subordinators” (Slučajne mere subordinatorskega tipa) pripravljal na University of California – Berkeley v ZDA. Je ime, ki se ga študenti statistike brez matematične izobrazbe najprej ustrašimo, saj je nosilec “strašnega” in zelo matematično obarvanega predmeta Metodologija statističnega raziskovanja na našem doktorskem študiju. A že po prvem srečanju ugotovimo, da je poznavanje matematične podlage statističnih algoritmov pomembno in dobrodošlo, prof. Perman pa prijazen in dostopen. Predvsem pa je velik strokovnjak na svojem področju. Raziskovalno se največ ukvarja z aplikativno verjetnostjo, svoje znanje kot profesor prenaša še na študente FMF in EF Univerze v Ljubljani ter FAMNIT-a Univerze na Primorskem, aktiven pa je tudi kot svetovalec na področju iger na srečo (za kazino Hit) in zavarovalništva, med drugim kot nekdanji direktor Agencije za zavarovalni nadzor. V pogovoru, ki sva ga za rubriko Pogovori opravila kar preko elektronske pošte, sva se dotaknila tudi teh tem.

PERMAN

prof. dr. Mihael Perman (vir: LinkedIn)

Študirali ste matematiko. Kaj je v vas zbudilo zanimanje za statistiko? Continue reading


1 komentar

Ob mednarodnem dnevu za odpravo nasilja nad ženskami

Leta 1981 je bil na prvi feministični konferenci Latinske Amerike in Karibov v Bogoti 25. november razglašen za mednarodni dan za odpravo nasilja nad nad ženskami in sicer v spomin na sestre Mirabal, ki so bile brutalno umorjene v času Trujillove diktature v Dominikanski republiki leta 1960.

Nasilje nad ženskami je ena od najbolj razširjenih in skritih oblik kršitev človekovih pravic. Temelji na neenakovrednih družbenih odnosih med spoloma, izvira iz neenakomerne porazdelitve zasebne in družbene moči med spoloma, iz kulturnega okolja in sistema vzgoje. Nasilno vedenje je največkrat naučeno in se prenaša iz generacije v generacijo. Na svetovni ravni podatki, ki so jih zbrali Združeni narodi in druge mednarodne institucije med leti 2011-2014 (UN Women, Facts and Figures: Ending Violence against Women), kažejo, da Continue reading


1 komentar

Statistični dan 2015: Masivni podatki

Osrednja tema letošnjega Statističnega dne, ki sta ga 10. novembra organizirala Statistični urad Republike Slovenije in Statistično društvo Slovenije, in se je tako kot lani in predlani odvijal na Brdu pri Kranju, so bili masivni podatki. Uvodoma sta udeležence nagovorila Andrej Blejec (video, 14′), predsednik Statističnega društva, in generalna direktorica SURS Genovefa Ružić, nato sta se odvili dve okrogli mizi.

Statističnega dne na temo masivnih podatkov se je udeležilo 350 obiskovalcev iz Slovenije in tujine (foto: MC)

Statističnega dne na temo masivnih podatkov se je udeležilo 350 obiskovalcev iz Slovenije in tujine (foto: MC)

V okviru prve okrogle mize, z naslovom Metodološki in informacijsko tehnološki vidiki uporabe masivnih podatkov, je moderator Marko Grobelnik z Instituta “Jožef Stefan” Continue reading