Udomačena statistika

Študenti statistike pišemo blog.


1 komentar

Predavanje Katarine Košmelj o načrtovanju eksperimentov

V torek, 19. novembra, je potekalo Prvo srečanje Mlade sekcije Statstičnega društva Slovenije, na katerem je gostja red. prof. dr. Katarina Komšelj imela kratko predavanje o načrtovanju eksperimentov. Začela je s prikazom videoposnetka poskusa, ki pokaže odpor opic zaradi neenakega plačila, vendar v nadaljnjih ponovitvah poskusa drugi raziskovalci niso uspeli priti do enakih ugotovitev. Nadaljevala pa z opisom osnov opazovalnih študij in načrtovanja eksperimentov in s tem povezanih statističnih analiz. Nato je predstavila nekaj zanimivih primerov eksperimentov iz zgodovine.

IMG_20191119_200458

Eksperimente so izvajali že Inki v 15. in 16. stoletju, kot kažejo ruševine naselja Machu Picchu v Peruju, kjer so primerjali kmetijske pridelke na različnih nadmorskih višinah. V 18. stoletju je švedski Kralj Gustav III na dveh zapornikih, ki sta bila enojajčna dvojčka, izvedel eksperiment o učinku kave in čaja na zdravje. Prav tako v 18. stoletju, a na nekoliko večjem vzorcu, je eksperiment izvedel vojaški zdravnik James Lindt, z namenom odkritja najboljšega zdravljenja za skorbut. Študentom statistike pa je najbolj znano delo Sira Ronald Aylmer Fisherja, utemeljitelja sodobne statistične znanosti, ki je leta 1935 izdal knjigo The Design of Experiments, v kateri predstavi teoretično ozadje načrtovanja in analize eksperimentov. Ta del je zaključila še z opisom Milgramovega eksperimenta o poslušnosti avtoriteti.

V zadnjem delu predavanja je predstavila primer analize eksperimenta na podatkih študije o rasti 27 deklic in dečkov, ki so jim vsaki dve leti merili razdaljo med hipofizo in špranjo za zgornjo čeljustnico. Namen študije je bil oceniti učinek starosti in spola na razdaljo, opisana pa je bila v knjigi o linearnih mešanih modelih (Pinheiro in Bates 2000). Predstavila je potek analize podatkov v statističnem programskem okolju R.

IMG_20191119_195022

Po predavanju smo ponovili znani Fisherjev eksperiment s poskušanjem čaja, ki je opisan v knjigi The Lady Tasting Tea, o kateri smo na blogu že pisali. V štiri skodelice smo najprej nalili čaj in nato mleko, v štiri pa najprej mleko in nato čaj. Oba pokuševalca med čaji nista začutila nobenih razlik, zato nismo mogli zavrniti ničelne hipoteze.

IMG_20191119_201912

Sledil je še sestanek Mlade sekcije, na katerem smo razpravljali o komunikacijskih kanalih društva, organizaciji prihodnjih dogodkov, mednarodnih povezavah in o izobraževalnih aktivnostih. Naslednje srečanje načrtujemo v januarju.

 


2 komentarja

Prvo srečanje Mlade sekcije Statističnega društva Slovenije

tea_cups_drink_925343_banner_mssdsPo tem, ko smo v začetku leta prenovili uredniški model bloga in ustvarili Facebook skupino Udomačeni statistiki, sva z Andrejem Srakarjem pripravila Predlog za ustanovitev sekcije mladih statistikov v okviru Statističnega društva Slovenije (PDF). V njem sva kot osnovne naloge sekcije poleg obstoječe spletne prisotnosti (na blogu, Facebooku in Twitterju) navedla navezavo stikov in sodelovanje s podobnimi mladimi sekcijami v tujini, spodbujanje izmenjav s tujimi univerzami in oddelki za statistiko, sodelovanje v projektu Evropske statistične igre in podporo priznanju za mlade statistike. Predlog sva poslala predsedniku društva, ki naju je povabil, da predlog predstaviva na seji izvršnega odbora društva, nato pa še na skupščini, ki je potekala v četrtek, 28. 3. 2019, kjer je bil predlog tudi sprejet.

V naslednjih mesecih sva se dobila z več drugimi mladimi statistiki in jih povabila k sodelovanju v prihodnjem delu Mlade sekcije društva. Skozi razprave z njimi sva oblikovala načrt prihodnjega dela sekcije – naše aktivnosti lahko razdelimo na štiri sklope:

  1. Prirejanje dogodkov: serija statističnih seminarjev, ki bodo potekali redno, dvomesečno v eno ali dvournih srečanjih; redna mesečna srečanja sekcije; in organizacija raznolikega programa dogodkov v sklopu letne konference Applied Statistics.
  2. Blog in (spletni) mediji: redno objavljanje na blogu Udomačena statistika in moderiranje Facebook skupine Udomačeni statistiki; ter aktivnosti v drugih medijih.
  3. Mednarodno povezovanje s sorodnimi sekcijami: aktivno sodelovanje v pobudi Young Statisticians Europe (YSE), trajnejše sodelovanje s sorodnimi sekcijami v tujini; ter projekt mednarodnega bloga.
  4. Vključevanje v izobraževanje na področju statistike: sodelovanje pri projektih, kot so Evropske statistične igre; aktivnosti za študente magistrskega in doktorskega študija statistike in drugih programov.

Če vas zanima sodelovanje v sekciji, nam lahko pišete prek kontaktnega obrazca

V okviru prvega sklopa bomo prvi spoznavni dogodek organizirali v torek, 19. 11. 2019, ob 19. uri v Poligonu (Tobačna ulica 5, Ljubljana). Srečanje bomo pričeli s predavanjem red. prof. dr. Katarine Košmelj (Biotehniška fakulteta UL) o načrtovanju eksperimentov, v okviru katerega bomo reproducirali znani Fisherjev eksperiment z okušanjem čaja opisan v knjigi The Lady Tasting Tea. Sledilo bo prvo zasedanje sekcije. Lepo vabljeni!

Dogodek je brezplačen, prosimo pa da se nanj prijavite preko obrazca Evenbrite.


Komentiraj

Nova Udomačena statistika

3249101355_bcf4aa50cb_b

Foto: J. Moran (Flickr)

Piše se leto 2019 in čez tri mesece bomo obeležili šesto obletnico obstoja bloga. Od začetkov v mednarodnem letu statistike preko prejema nagrade Statističneaga društva Slovenije za odličnost poročanja v medijih v letu 2015 do danes se izgled bloga ni bistveno spremenil. V ozadju pa smo pred kratkim odločil za dve pomembni novosti, ki ju želim predstaviti v tej objavi.

1. Prenovljen uredniški model bloga

Udomačena statistika je študentski blog, vendar njeni snovalci nismo več študenti, kar zahteva razmislek, ali je ta oznaka še ustrezna. Hkrati so objave postale vse redkejše in potrebujemo okrepitve. Iščemo novo generacijo doktorskih študentov statistike, ki bo prevzela pisanje in urednikovanje, vendar to ni dovolj. Koncept bloga smo se odločili razširiti, da bo dovoljeval širši nabor avtorjev. K pisanju vabimo vse, ki se v Sloveniji ukvarjate s katerimkoli področjem statistike. Če vas zanima sodelovanje, nam pišite preko kontaktnega obrazca.

Poleg pomanjkanja avtorjev je težava tudi zamuden recenzentski postopek, ki je zahteval, da vsako objavo pregledata vsaj dva člana uredništva. Odločili smo se omiliti tako, da skrajšamo čas za pregled na en teden (za krajše in preprostejše objave) do dva tedna (za daljše in kompleksnejše objave). Če po enem oziroma dveh tednih ne bo nobenih pripomb, gre prispevek v tehnični pregled in objavo.

2. Skupina Udomačeni statistiki

Udomačena statistika že dolgo ni več samo blog. Že od leta 2013, ko je nastala, urejam istimensko Facebooku stran in Twitter profil, kjer sem poleg povezav do objav na blogu objavljala tudi druge zanimive vsebine povezane s statistiko. Nabralo se je več kot 300 sledilcev na Facebooku in več kot 400 na Twitterju. Ker sem v zadnjih letih imela vse manj časa za objave, sem lani sprejela ponudbo za pomoč in kot urednik Facebook strani se mi je pridružil dr. Andrej Srakar.

Ker sama ne moreva pokriti vseh področij statistike, se je porodila ideja o odprti skupini, kjer bi lahko vsak član objavljal s svojim imenom in priimkom, kar bi zamenjalo trenutno enostransko komunikacijo na strani. Prvega januarja sva ustanovila Facebook skupino Udomačeni statistiki (namenoma v množini), v katero vabiva vse, ki se v Sloveniji profesionalno ali ljubiteljsko ukvarjate s statistiko oziroma vas to področje zanima. Ime skupine je Udomačeni statistiki (namenoma v množini).

Moderatorja sva postavili tudi nekaj pravil, v upanju, da bo skupina razvila v prostor, v katerem bodo člani lahko delili vsebine s (širšega) področjem statistike, za katere menijo, da so zanimive za slovensko statistično skupnost. Če so povezane s statistiko, je dovoljeno je tudi promovirati svoje objave, članke, knjige, spletne strani, dogodke, itd. Člani bodo skupino uporabljali za postavljanje vprašanj in iskanje pomoči, vendar v razumnem obsegu, saj namen skupine ni nudenje brezplačne pomoči pri uporabi statističnih metod.

Veseli bomo vašega sodelovanja in odzivov.


Komentiraj

Vzorčenje v dobi masivnih podatkov

“Kdaj lahko rešeš, da imaš “big data”? Ko je datoteka tako velika, da je ne moreš odpreti na svojem računalniku.” Nekako takole smo se, malo za hec malo za res, do masivnih podatkov (slovenski izraz za “big data”) opredelili na večerji s kolegom, ki dela na Googlu,  ko je pred letom ali dvema obiskal naš raziskovalni center. “Big data” v marsikaterih krogih velja za modno muho (“buzzword”), saj se zadnje čase uporablja vsevprek – bil je na primer ena izmed glavnih tem na lanskih konferencah AAPOR in Webdatanet ter tudi osrednja tema Statističnega dne. Sicer pa imajo masivni podatki že več desetletno zgodovino in za marsikoga, ki se ukvarja z obdelavo podatkov in statistiko, taka podatkovja, niso nič novega. Res pa je, da tako velikost kot obseg tovrstnih podatkov vse hitreje naraščata.

Masivni podati pomenijo številne priložnosti za praktično uporabo na več področjih – o tem je na primer govori Kennet Cukier (urednik pri reviji The Economist)  v TED videu ‘Big data is better data’ – v tej objavi pa nas nasprotno zanimajo predvsem izzivi, ki jih prinašajo za delo nas, statistikov. Čeprav masivni podatki zaradi kompleksnosti in velikosti zahtevajo drugačne pristope k analizi, ti pristopi še vedno stojijo na starih temeljih, so ugotavljali na okrogli mizi na lanskem Statističnem dnevu. Pa tudi zbiranje podatkov s spraševanjem bo še dolgo relevantno.

Kakšna pa je v dobi masivnih podatkov vloga vzorčenja, tj. izbiranja enot iz populacije v vzorec? Zakaj se zadovoljiti  le z vzorcem enot, če lahko dostopamo do celotne populacije? En razlog je seveda to, da je včasih manj več – bolj kot velikost podatkovja je namreč pomembno to, da podatki koneceptualno ustrezajo temu, kar želimo meriti. Toda tudi v primeru, da masovovni podatki niso pristranski, se v praksi še vedno uporablja vzorčenje. Zakaj? Če se vrnem k večerji, s katero sem začela ta prispevek. Kolega z Googla nam je povedal zgodbo, kako je od statistika na sosednjem oddelku potreboval določeno poizvedbo in bil presenečen, da je ta ni pognal na celotni bazi, ampak le na vzorcu podatkov. Podatkovna baza je bila namreč tako masivna, da jih  niti z najboljšimi računalniki ne zmorejo učinkovito obdelati.

Na to anekdoto sem se spomnila lani, med gledanjem tretje sezone ameriške nadaljevanke House of cards. Doug Stamper (Michael Kelly), išče Rachel Posner (Rachel Brosnahan), ki bi lahko bila pomembna priča v morebitnem procesu proti predsedniku Franku Underwoodu (Kevin Spacey). Obrne se na hekerja Gavina Orsaya (Jimmi Simpson), ki je zaposlen na FBI oddelku za kibernetski kriminal. Gavinu uspe dostop do posnetkov prometnih kamer, v katerih potem išče njen obraz. Vendar je podatkov veliko preveč, da bi zmogel obdelati vse, zato s tehnologijo zaznavanja obraza pregleduje samo slučajno izbran vzorec 10% posnetkov. Vzorca ne more povečati, saj bi to sprožilo varnostne alarme.

HoC1-MOTION

Če še kdo ni gledal tretje sezone serije in se želi izogniti kvarnikom, naj ta odstavek preskoči. Za optimizacijo iskanja Gavin potrebuje dodatne informacije o Rachel, zato se spoprijatelji z njeno nekdanjo prijateljico Liso Williams (Kate Lyn Sheil). Od dekleta izve, da sta se pogovarjali o pobegu v zvezno državo Nova Mehika. Na podlagi teh podatkov lahko Gavin iskanje omeji na manjši obseg in mu jo uspe izslediti. Kako se zgodba konča, pa si sami poglejte.

Danes se je začela nova sezona nadaljevanke in zanimivo bo videti, ali bo statistika spet imela kakšno posebno vlogo v zgodbi. Ta se v filmih, nadaljevankah in na sploh v popularni kulturi tako redko pojavlja, da smo toliko bolj pozorni še na najmanjšo omembo.

Svet, kjer ne bi potrebovali inferenčne statistike,  pa je zaenkrat še domena znanstvene fantastike.


5 komentarjev

Štiri anketne napake na primeru predreferendumskih anket

V nedeljo bo potekal zakonodajni referendum, na katerem se bo glasovalo o vprašanju, ali naj se uveljavi Zakon o spremembah in dopolnitvah Zakona o zakonski zvezi in družinskih razmerjih (ZZZDR-D), ki ga je Državni zbor sprejel 3. marca 2015. Glas ZA bo podprl spremembo besedila 3., 12. in 16. člena zakona, kar bo omogočilo, da lahko zakonsko zvezo skleneta tudi osebi istega spola.

IMG_2540

Istospolna poroka v Redwood National Park v Kaliforniji, ki sem ji – povsem po naključju – prisostvovala ob obisku parka maja 2014. V Kaliforniji so istospolne poroke legalne od junija 2008.

Kakšen izid referenduma lahko pričakujemo? Nadaljujte z branjem


1 komentar

Prejeli smo priznanje odličnosti statističnega poročanja v medijih

Snovalci bloga Udomačena statistika smo prejeli priznanje za Odličnost statističnega poročanja v medijih za leto 2015. To je priznanje, ki ga Statistično društvo Slovenije vsako leto “podeli novinarju ali drugemu poročevalcu, ki v medijih strokovno pravilno poroča o statistiki ali uporabi statistiko na način, ki presega običajno raven. Priznanje se lahko podeli tudi za medijsko poročanje o statistiki, ki prispeva k večjemu ugledu statistične stroke v najširši javnosti,” je zapisano v društvenem pravilniku o podeljevanju priznanj.

20151208_161522

Ana Slavec in prof. dr. Andrej Blejec, predsednik Statističnega društva Slovenije

Veseli smo, da je naše delo na področju promocije statistike cenjeno in v čast nam je, da smo se se s tem znašli v imenitni družbi nagrajencev iz preteklih let, uredništva Dnevnikovega Objektiva, Slavka Jeriča, avtorja portala Športni SOS in uredništva časnika Delo. Čeprav sami nimamo takega dosega kot prejšnji dobitniki – v aktivnih mesecih nas glede na WordPress statisitko obišče okrog Nadaljujte z branjem


Komentiraj

Pogovor s Tino Zupanič

Statistike v Sloveniji ni možno študirati le na 3. stopnji, ampak na tudi na 2. bolonjski stopnji. Magistrski študijski program Uporabna statistika se izvaja od leta 2013/2014, že pred tem pa je obstajal stari magistrski program, ki se je izvajal od leta 2002/2003. V rubriki Pogovori, se bomo lotili tudi alumnov magistrskega programa. Na njem je leta 2011 magistrirala naša naslednja sogovornica, Tina Zupanič.

tinaz

Tina Zupanič (vir: osebni arhiv)

Mag. Tina Zupanič je bila po diplomi najprej zaposlena na kot raziskovalka na Centru za metodologijo in informatiko na FDV (v podcentru, ki je sedaj Center za družboslovno informatiko), kjer se je ukvarjala z raziskovanjem rabe interneta v Sloveniji, mobilno rabo internetamobilno telefonijo, spletno obiskanostjo, pa tudi z bolj statističnimi temami, kot na primer napaka zaradi neodgovorov v anketah in uteževanje podatkov. Leta 2007 se je zaposlila na na takratnem Inštitutu za varovanje Zdravja (sedaj Nacionalni inštitut za javno zdravje), kjer je zaposlena še danes, in v tem času tudi magistrirala na temo neodgovorov v raziskavah, povezanih z zdravjem.

Na FDV sva kratek bili sodelavki, julija letos pa sva se srečali na konferenci ESRA, kjer sta s sodelavko Darjo Lavtar predstavljali na temo učinka spodbud respondentom na stopnje odgovorov v zdravstveni anketi CINDI ter o primerjavi zdravja nerespondentov in respondentov v treh slovenskih zdravstvenih anketah. Prosila sem jo, da za blog odgovori na nekaj vprašanj Nadaljujte z branjem