Udomačena statistika

Mladi statistiki pišemo blog.

Pogovor z Vasjo Vehovarjem

Komentiraj

Obujamo rubriko Pogovori, v okviru katere smo v letih 2014 in 2015 več alumnov in profesorjev na študijskem programa statistike prosili, da odgovorijo na naš nabor vprašanj.

Vasja Vehovar je redni profesor statistike na Fakulteti za družbene vede in nekdanji ustanovni predstojnik tamkajšnjega Centra za družboslovno informatiko. Po magisteriju iz ekonomije na Univerzi v Ljubljani je na Univerzi v Essexu diplomiral (1992) in magistriral (1992) s področja podatkovne analize ter na Inštitutu za družboslovno raziskovanje Univerze v Michiganu opravil specializacijo s področja vzorčenja (1992), kasneje pa je tam gostoval tudi kot Fulbrightov štipendist (1998). Na Ekonomski fakulteti Univerze v Ljubljani je doktoriral (1995) na temo nadomestnih enot v anketnem raziskovanju.

Foto: Fakulteta za družbene vede

Ukvarja se z internetnim raziskovanjem, indikatorji informacijske družbe, manjkajočimi podatki, vzorčenjem v anketah, družboslovno metodologijo in predsvsem metodologijo spletnega anketiranja. Mednarodnih in domačih projektov, ki jih je vodil, je preveč, da bi jih naštevali. Izpostavila bi spletno mesto Web Survey Methodology (WebSM), za katerega sta s Katjo Lozar Manfreda leta 2009 od Ameriškega združenja za javnomnenjske raziskave prejela nagrado Warren-Mitofsky za inovativnost. V okviru istoimenskega projekta nastala monografija Web Survey Methodology je leta 2015 izšla pri založbi Sage. Od leta 2007 razvija odprtokodno aplikacijo za spletno anketiranje 1KA, ki ima že več kot 65.00 uporabnikov. V letih 1995 in 1995 je bil predsednik Statističnega društva Slovenije in leta 2019 je prejel Blejčevo nagrado društva za razvoj statistične stroke. Po kvantitativnih kriterijih ocenjevanja raziskovalnega dela je med najuspešnejšimi raziskovalci v Sloveniji. Bil je mentor pri dvanajstih doktorskih nalogah, med drugim tudi pri moji.

  1. Študirali ste matematiko in ekonomijo. Kaj je v vas zbudilo zanimanje za statistiko?

Bilo je naključje. Najprej sem se, še v socializmu, namreč zaposlil na takratnem ministrstvu za znanost (za področje statistike znanosti). Tam je bilo sicer zanimivo, vendar so bile možnost napredovanja zelo omejene. Zato sem se odločil za magistrski študij in statistika (na Ekonomski fakulteti, takrat še v okviru informatike) je bila nekako povezana z delom, ki sem ga opravljal.

  1. Kako bi laiku pojasnili uporabnost statistike v vsakdanjem življenju? Lahko podate primer (anekdoto) ali pogled, kako statistika dviguje kakovost življenja ljudi?

Najpogosteje se srečujem s primerom, ko se realizira neka nizka verjetnost, desetkrat višja verjetnost pa se ne realizira. Tako ljudje pogosto ne razumejo, kako lahko npr. nekdo, ki je mlad in ni nikoli kadil, dobi težko pljučno bolezen, nek starejši verižni kadilec pa je ne dobi.

  1. Statistiki se pogosto očita, da je lažniva. Seveda neupravičeno. Katera statistična laž ali napaka v statističnem sklepanju vas je do sedaj najbolj razjezila?

Dober primer je zavajanje, kako imamo v Sloveniji zelo veliko brezposelnih, kar ustvarja v ljudeh psihozo, da je brezposelnost pri nas težek družbeni problem. Na začetku študijskega leta včasih vprašam študente, ali je brezposelnost pri nas hud problem in vsi zelo resno prikimavajo. Mediji namreč ljubijo probleme, zato izpostavljajo absolutne številke (npr. 88.000) brezposelnih na zavodu kot dokaz o armadi brezposelnih, poleg tega emocionalno prikazujejo posamezne tragične primere, kar je najbolj zanesljiv način za manipulacijo. Dejstvo pa je, da ankete, ki so edini primerljiv vir podatkov, konsistentno kažejo, da je brezposelnost v Sloveniji zelo nizka in globoko pod EU (npr. 2019: 4,7% vs. 7,2%).

Podobno me moti pomanjkljivo statistično informiranje o bolezni COVID-19. Dnevno se namreč izpostavlja zgolj nekatere (ene in iste) številke, ki pa so zelo parcialne, specifične in vezane na kompleksne in spreminjajoče metodološke okoliščine (npr. število smrti, dnevno odkrite okužbe). In še te številke se navaja precej izven konteksta- Absolutno število smrti, na primer, je v bistvu popolnoma irelevanten podatek, če se ga ne primerja z vsemi smrtmi tistega dne v državi, in s siceršnjim nivojem prejšnjih let. Vse to se seveda da poiskati, ampak govorim o tem, da bi se moralo izpostavljati najpomembnejše in najustreznejše številke, ne pa pričakovati, da bomo državljani delali vsak svojo analitiko. Predvsem pa manjka sistematično statistično spremljanje načina oziroma prenosa okužbe. Ker tega ni, v konkretnih situacijah sploh nismo razvili občutka, kaj točno je nevarno obnašanje in kaj ne. Zato dobivamo vtis, da je COVID-19 iracionalen in da ga dobiš na skrivnosten mitski način kot nekakšno usodo, na katero ni mogoče vplivati. Bistveno premalo izpostavljeno je tudi ločeno poročanje glede na ključne strukture (npr. starost, spremljajoče bolezni, DSO). V statistiki namreč zelo dobro vemo, kako tragično napačna je lahko nestrukturirana analiza na nivoju agregata (npr. Simpsonov paradoks).

Vse to je po mojem mnenju zelo pomembno pripomoglo k teorijam zarote, ki jim danes verjame že tretjina populacije (jutri pa jim bo verjela verjetno že polovica).

  1. Pred 15 leti ste v soavtorstvu z Rubinom in Sternom reviji ameriškega statističnega združenja objavili članek o obravnavi odgovora “ne vem” na primeru slovenskega plebiscita. Ali je pristop, ki ste ga uporabili, še vedno aktualen za obravnavo manjkajočih odgovorov?

Gre v bistvu za precej običajen učbeniški pristop (EM algoritem), ki predpostavlja, da je mogoče obnašanje manjkajočih vrednosti pojasniti z razpoložljivim podatki. Dodana vrednost tega članka je bila predvsem v tem, da je kot prvi pokazal, kako dobimo enake rezultati kot z EM algoritmoma tudi z bayesijanskim modeliranjem. Zelo atraktivni pa so bili tudi podatki in so se zato še mnogokrat ponovno analizirali z drugimi pristopi.

  1. V zadnjih letih se ukvarjate predvsem s spletnimi anketami. Kaj so trenutno največji izzivi za statistike pri spletnem anketiranju?

Glavni problem je posploševanje na populacijo na osnovi neverjetnostnih vzorcev. To seveda ni vezano na spletne ankete, saj imamo npr. kvotne vzorce v osebnih anketah že skoraj sto let. Spletne ankete pa so ta problem zgolj zelo izpostavile.

V nasprotju z doktrino statističnega sklepanja so namreč neverjetnostne ankete v spletnih panelih razmeroma kakovostne, če se jih seveda ustrezno razvije. Ker so poleg tega tudi do približno desetkrat cenejše, se poraja vprašanje, kdaj in zakaj sploh še uporabljati drage in zapletene verjetnostne ankete (ne glede na način anketiranja).

  1. Kaj bi počeli, če ne bi bili statistik?

To je zelo težko reči. V osnovi sem sicer hotel študirati književnost; to me je v srednji šoli najbolj zanimalo in zgolj splet nekih okoliščin je to preprečil. V takem primeru bi se verjetno gibal v literarnih krogih ali pa bi celo izstopil iz produkcijskega kroga v neko bolj odmaknjeno varianto. Na drugi strani se je kasneje, spet bolj slučajno, izkazalo, da imam precej inovativnega in podjetniškega duha, tako da bi lahko postal podjetnik.

  1. Katere spletne strani, bloge ali knjige s področja statistike bi priporočili kot poljudno branje?

Knjiga Fooled By Randomness (Nassim Taleb) in blog The Survey Geek (Reg Baker).

Avtor: Ana Slavec

Svetovalka za statistiko na centru odličnosti InnoRenew CoE. Pred tem je bila sedem let raziskovalka na Fakulteti za družbene vede. Je članica upravnega odbora Društva mlada akademija, urednica bloga Udomačena statistika ter sovoditeljica Meta PHoDcasta. Na Twitterju je @aslavec.

Oddajte komentar

Fill in your details below or click an icon to log in:

WordPress.com Logo

Komentirate prijavljeni s svojim WordPress.com računom. Odjava /  Spremeni )

Google photo

Komentirate prijavljeni s svojim Google računom. Odjava /  Spremeni )

Twitter picture

Komentirate prijavljeni s svojim Twitter računom. Odjava /  Spremeni )

Facebook photo

Komentirate prijavljeni s svojim Facebook računom. Odjava /  Spremeni )

Connecting to %s