Udomačena statistika

Študenti statistike pišemo blog.


Komentiraj

Simbolna analiza podatkov in analiza mešanic: statistika in geometrija, 2. del

Slika 1 Aitchison

Slika 1: John Aitchison (Vir: Wikipedia)

V drugem prispevku o simbolni analizi podatkov bomo govorili o sorodni metodi – analizi mešanic (angl. compositional data analysis, velikokrat boste srečali tudi kratico CoDa). Metodo analize mešanic je v statistiki utemeljil in razvil nedavno preminuli škotski statistik John Aitchison, ki je za delo na tem področju leta 1988 prejel tudi srebrno Guyjevo medaljo britanskega Kraljevega statističnega društva, ki velja za eno najprestižnejših statističnih priznanj na svetu.

Analiza mešanic se ukvarja z odstotki oziroma, pravilneje rečeno, z deli izbrane celote, o katerih imamo le relativne informacije, ki nam povedo le razmerje do drugih podobnih informacij. Govorimo o spremenljivkah, pri katerih so vrednosti podane kot verjetnosti, deleži, razmerja itd. Pri tem imamo naenkrat opraviti z vektorji, sestavljenimi iz vrednosti, matematični – geometrijski prostor preučevanja pa se spremeni iz običajnega kartezijanskega v simpleks, torej v n-razsežno analogijo trikotnika. V zvezi s tem je o problemu navidezne korelacije konec 19. stoletja prvič pisal Karl Pearson. Na nekoliko drugačen način pa je navidezno korelacijo v povezavi s časovnimi vrstami obravnaval Nobelov nagrajenec Clive W.J. Granger).

Slika 2 simplex

Slika 2: Prikaz tridimenzionalnega simpleksa (v tem primeru trikotnika) za podatke analize mešanic. (Vir: leq.upfr.br, str. 48 in 49).

Operacije, s katerimi statistično preučujemo razmerja med takšnimi spremenljivkami, so precej drugačne od tistih, ki jih poznamo iz klasične statistike. Poznamo dve glavni operaciji: perturbacijo ali kompozicijsko seštevanje in kompozicijsko množenje (angl. power operation). Novi načini računanja seveda zahtevajo tudi poseben pristop k analizi. Ni več dovolj upoštevati običajna razmerja, pač pa analiza zahteva določene prilagoditve, transformacije, najpogosteje povezane z logaritmi. Gre za središčne logaritemske razmernostne koeficiente (angl. centred log-ratio coefficients – clr), v izpeljavi Juana Joséja Egozcueja in sodelavcev pa se uporabljajo tudi izometrični logaritemski razmernostni koeficienti – ilr.

Zaradi zgoraj navedenega se seveda sremenijo vsi izračuni: za osnovne opisne statistike, multivariatne metode, tudi regresijo. Tudi preverjanje hipotez ima povsem spremenjeno, večstopenjsko shemo. Obstajajo tudi posebne metode, ki naslavljajo za ta pristop običajen problem ničelnih vrednosti (načeloma morajo biti v takšni analizi vse vrednosti razmerij pozitivne). Pomemben članek o tem so pripravili prof. Fry in sodelavci.

Problem predstavlja tudi ugotavljanje/določanje? Parametrov pri tem pristopu: kakšne porazdelitvene predpostavke uporabiti pri analizi, ali gre za lognormalne, Dirichletove, sestavljene multinominalne, multivariatne beta, ali katere druge porazdelitve? Nekatera izhodišča analize mešanic namreč izhajajo iz predpostavke, da je porazdelitev tržnih deležev pri podjetjih običajno precej bliže generaliziralnim normalnim, t.i. Subottinovim porazdelitvam, kot pa bolj običajnim normalnim (Gaussovim) ali Laplaceovim porazdelitvam.

Slika 3 distributions

Slika 3: Empirično ustrezanje različnih statističnih porazdelitev podatkom analize mešanic (Vir: rieti.go.jp, str. 13).

Analiza mešanic je tudi ena izmed metod za statistično in ekonometrično preučevanje tržnih deležev, t.i. market share analysis. Gre za modele, kot so predvsem “atrakcijski” modeli (MCI/MKI – Multiplicative Competitive Interaction Model oz. model multiplikativnih konkurenčnih interakcij; multinominalni modeli na tem področju; polni faktorski model oz. Full-Factorial Model, itd.) in še mnogi drugi. Kolikor vemo, se pri nas v statistični in ekonometrični analizi ti modeli le redko uporabljajo, čeprav odpirajo veliko možnosti za zanimive analize.

V prispevku sem v grobem opisal dve sodobni statistični metodi, ki odpirata velike možnosti nadaljnjega raziskovanja. Čeprav gre pri prvi, simbolni analizi podatkov načeloma za metodo, ki je nastala iz analize t.i. masivnih podatkov (in se jo tudi v splošnem uvršča v t.i. rudarjenje podatkov oz. data mining), pa menim, da je njeno bistvo povsem drugje: gre, kot smo prikazali, predvsem za povsem nov pogled na statistiko. Delo z vektorji in relativnimi merami pri metodi analize mešanic pa odpira lep in drugačen matematičen svet[1]. Omenil sem tudi možnosti analize tržnih deležev, ki so zanimivi za bodoče delo v statistiki, še bolj pa v ekonometriji – dveh področjih, ki sta tesno povezani in se prepletata, čeprav sta v veliki meri tudi različni. Obe odpirata še ogromno novih in vsaj v praksi še neraziskanih področij, ki se jih bom poskušal vsaj bežno dotakniti v katerem od naslednjih prispevkov.

[1] Za osnovni vpogled v predstavljeni pristop analize mešanic predlagam odličen in dobro berljiv, prosto dostopen Aitchisonov učbenik A Concise Guide to Compositional Data Analysis. Posamezni modeli pa so zelo dobro opisani v odlični monografiji Leeja G. Cooperja in Masaeja Nakanishija.

Advertisements


Komentiraj

Simbolna analiza podatkov in analiza mešanic: statistika in geometrija, 1. del

Slika 1

Edwin Diday, ki je skupaj z Lynne Billard začetnik simbolne analize podatkov (Vir: modulad.fr)

V prispevku, ki je moj prvi na Udomačeni statistiki, želim kratko predstaviti dve metodi, s katerima sem se srečal v prvem letniku doktorskega študija statistike in se “zaljubil” vanju. Prvo, analizo simbolnih podatkov (angl. symbolic data analysis) sem spoznal pri predavanjih predmeta Sodobni statistični pristopi, kjer nam je o njej predavala doc. dr. Simona Korenjak Černe z Ekonomske fakultete. Drugo, analizo mešanic (angl. compositional data analysis) pa, zanimivo, bolj po naključju prek običajnega dnevnega statističnega in ekonometričnega brskanja po internetu. Najprej sem odkril, da je zanjo velik specialist tudi sedanji predsednik Statističnega društva Slovenije, prof. dr. Matevž Bren. Nato pa še večje presenečenje: da je na tem področju mednarodna referenca (kolikor mi je to znano) prof. dr. Tim Fry, ekonometrik in dekan Šole za ekonomijo, finance in marketing na RMIT v Melbournu (eni najboljših avstralskih univerz) ter odgovorni za organizacijo konference svetovnega združenja kulturnih ekonomistov ACEI drugo leto v Melbournu, pri kateri sem tudi sam v programskem znanstvenem odboru (kot nekdo, ki že več kot desetletje zelo aktivno deluje tudi na področju kulturne ekonomike). S prof. Fryjem pripravljava članek o uporabi metode analize mešanic pri analizi mednarodne menjave s kulturnimi dobrinami za nekatere statistične probleme, ki niso povsem običajno rešljivi z najbolj enostavnimi pristopi analize mešanic.

Namen tega prispevka seveda ni predstaviti podrobnosti obeh metod, pač pa prikazati njune osnovne značilnosti. Povedal bom tudi, zakaj se mi zdita pomembni za delo v sodobni statistiki. Zato bom izpustil mnoge podrobnosti, ki jih lahko najdete v literaturi s teh področij.

Pričnimo s simbolno analizo podatkov. Ko smo s kolegi na Ekonomski fakulteti in Inštitutu za ekonomska raziskovanja, pripravili neformalne ekonometrične seminarje, so bili mnogi navdušeni nad možnostmi, ki sta jih na prvih dveh seminarjih odlično prikazala izr. prof. dr. Anže Burger (o analizi kavzalnosti v ekonometriji) in doc. dr. Martin Žnidaršič (o strojnem učenju in uporabi v ekonomiji). Analiza kavzalnosti je “klasična”, ko govorimo o ekonometriji, čeprav  še vedno odpira velikanske možnosti novih raziskovanj. Posebej druga, strojno učenje, pa zaseda trenutno veliko prostora v razpravah o statistiki in se vedno pogosteje pojavlja tudi na področju ekonomije. Kolegom, s katerimi pripravljamo seminarje (Gibanje za ekonomsko pluralnost, GEP), sem v kratki napovedi seminarja povedal, da je simbolna analiza podatkov zame še bistveno bolj vznemirljivo področje od predhodnih dveh.

Zakaj? Ker gre pri simbolni analizi podatkov, katere začetnika sta bila predvsem matematika Edwin Diday in Lynne Billard[1], za povsem nov konceptualen pogled na statistiko. V njem spremenljivke niso več le številke, pač pa so dejansko lahko kar koli.  Povedano v jeziku matematike je “točka” v analizi simbolnih podatkov hiperkocka v p-dimenzionalnem prostoru ali pa kartezijski produkt porazdelitev. Na tak način vrednosti v simbolnih podatkih niso več omejene na številke z le eno numerično vrednostjo. V današnjem stanju simbolne analize podatkov ločimo naslednje tipe takšnih spremenljivk: intervalne, ko je spremenljivka dejansko interval vrednosti, omejen spodaj in zgoraj (denimo krvni tlak, telesna teža); večvrednostne/kategorialne, ki so sestavljene iz vrednosti po kategorijah spremenljivke (denimo vrsta bolezni, vrsta avtomobila); ter modalne, ki so spremenljivke z več stanji (angl. multistate), ki imajo vsaka svojo frekvenco, verjetnost ali utež (denimo kumulativna porazdelitev neke spremenljivke po izbranih kvantilih).

Tak tip podatkov seveda zahteva povsem drugačen pristop k analizi v smislu matematičnih in statističnih formulacij. Že izračun osnovnih opisnih uni- in bivariatnih statistik, kot so povprečje, standardni odklon, korelacija in kovarianca, je povsem drugačen (Več o tem v omenjenem temeljnem članku tega področja). Zaenkrat bi lahko dejali, da je področje še precej nerazvito, vsaj v luči ogromno možnosti, ki jih verjetno ponuja.

Naj povedano ilustriram s primerom iz omenjenega članka Billardove in Didayja. Denimo, da nas zanimajo vsi živeči v Bostonu, hkrati pa imamo podatke o številu otrok, ki jih ima vsak posameznik v vzorcu (z vrednostmi 0, 1, 2 ter 3 ali več otrok). Iz tega izhajajoča simbolna (modalna) spremenljivka je število otrok za živeče v Bostonu, ki je sestavljena iz štirih vrednosti, ki opisujejo relativne frekvence za vse tiste z nič, enim, dvema ter tremi ali več otroki. Pri nadaljnji analizi ne uporabljamo več osnovne “točkovne” spremenljivke števila otrok, pač pa novo, simbolno spremenljivko, ki je sestavljena iz štirih vrednosti in je ne moremo več opisati v preprostem kartezijanskem prostoru (glej sliko spodaj).

Slika 2

Od standardnih podatkovnih tabel do podatkovnih tabel simbolnih podatkov (Vir: Diday 2014, slide 7/62)

Kratko omenimo nekatere znane uporabe in razvite metode na področju. Cazes idr. (1997) ter Chouakria (1998) so razvili metodo glavnih komponent za simbolne podatke (intervalne spremenljivke). Faktorsko analizo za intervalne spremenljivke so razvili Cheira, Brito in Duarte Silva (2015). Metodo glavnih komponent za trismerne podatke (angl. three-way data) je oblikoval Ichino (2011). Številne metode so bile razvite za simbolno razvrščanje v skupine, denimo razdruževalne metode, razvite v Michalski, Diday in Stepp (1981) ter Michalski in Stepp (1983) ter aglomerativne, razvite denimo v Diday (1987) in Brito (1994, 1995). Med regresijskimi modeli naj omenim ločitev na modele za intervalne podatke (denimo Billard in Diday, 2000; 2002; 2006; Lima Neto in De Carvalho, 2008; 2010; ter Ahn idr., 2012) ter histogramske/modalne spremenljivke (tu obstajajo trije osrednji modeli, razviti v prispevkih Billard in Diday, 2006; Dias in Brito, 2015; ter Irpino in Verde, 2015).

Eden izmed pomembnejših dogodkov na področju je vsakoletna delavnica, ki je v letošnjem letu potekala tudi v Ljubljani, kjer so bile prisotne tako rekoč vse vodilne osebe na področju, vključno s prof. dr. Didayjem in prof. dr. Billardovo.

Treba je povedati, da smo na področju zelo aktivni tudi slovenski raziskovalci: v prvi meri skupina prof. dr. Vladimirja Batagelja, v kateri zelo aktivno delujeta predvsem že omenjena doc. dr. Simona Korenjak Černe in dr. Nataša Kejžar. Vsi navedeni so močno povezani tudi s študijem statistike pri nas, prva dva kot predavatelja, Nataša pa kot ena prvih doktorandk statistike na študiju v Sloveniji. Intervju z njo ste v preteklih letih lahko prebrali tudi na tem blogu.

[1] Billard, L. in  Diday, E. (2003). From the Statistics of Data to the Statistics of Knowledge: Symbolic Data Analysis. JASA. Journal of the American Statistical Association. June, Vol. 98, N° 462; in Billard, L. in Diday, E. (2006). Symbolic Data Analysis: Conceptual Statistics and Data Mining. Hoboken, New Jersey: John Wiley and Sons.


Komentiraj

Kdaj rečemo, da so rezultati čudni?

Pogosto se srečam z vprašanjem ali mislijo, če je to kar vidim iz podatkov čudno? Za čudno navadno smatram nekaj, česar ne pričakujem, da se bo zgodilo. Denimo, da bom zadel na loteriji, kar bi bil sorodnik čudnega, čudež tako zvani.

V statistiki se srečujemo z razlikami v povprečjih, za kar že tradicionalno uporabljamo t-test (če gre za razliko med dvema skupinama) in sorodne metode. Test je svoje ime dobil po porazdelitvi t, s pomočjo katere ocenimo ali gre za čudno razliko v povprečjih ali ne. Več o tem testu je pisal Črt v prispevku Zakaj je pivo tako dobro ali kdo je Student.

Poglejmo si kako gledamo na razlike v povprečjih s pomočjo praktičnega primera. Denimo, da imamo na voljo kosilnice za travo znamk Fergucon iz Wajdušne in Tomo Ovinkelj iz Raven na Koroškem. Od vsakega podjetja imamo na razpolago petdeset naprav. Predpostavimo, da imajo vse kosilnice enako velik rezervoar za bencin, ki ga napolnimo z enako količino goriva. Kosilnice uporabljamo dokler bencina ne zmanjka in ne ostanemo na travniku kot župniki s Primorske. Za vsako napravo zabeležimo čas obratovanja. Iz teh podatkov za vsako znamko naredimo frekvenčni diagram (število kosilnic, ki je porabila določeno količino goriva), ki bi simbolno prikazan izgledal nekako tako kot prikazuje slika spodaj.

poraba_goriva_velika_razlika

Povprečna poraba goriva kosilnic (o povprečjih več tu) ene in druge znamke je približno 30 in 50 minut, z nekaj odstopanja od povprečja. Drugače povedano je največ kosilnic obratovalo 30 oz. 50 minut, nekaj pa tudi več in manj.

Ali bi rekli, da se povprečna časa obratovanja teh dveh znamk razlikujeta? Na pomoč pri odgovoru nam lahko priskoči t-test. Odgovarja na vprašanje ali lahko, na podlagi števila meritev in razlike v povprečjih ter variance rečemo, da je med povprečji dovolj velika razlika.

Kaj pa če bi dobili takle rezultat? V tem primeru sta povprečja zelo skupaj, razlika v porabi goriva izgleda majhna.

poraba_goriva_majhna_razlika

Bi na podlagi te slike znali kupcu svetovati pri najboljšem nakupu, da bo lahko za sodček bencina kar se da dolgo lahko kosil travnik? Pri zadnjem primeru verjetno ni velikih (signifikantnih) razlik in bi rekli, da je vseeno katero znamko kupi. Seveda predvidevajoč, da gre pri obeh znamkah za primerljive naprave s primerljivo stopnjo udobja sedežev, oblazinjenim volanom, bleščečim kesonom, varnostjo zavor, debelino profila na kolesih, glasnost obratovanja, težavnost vzdrževanja, ipd. Temu rečemo predpostavke, ki so pomemben del v vsakodnevnem delu (in življenju?) statistika.

Kaj pa če bi bila cena bencina astronomsko visoka? Ali bi se splačalo, glede na majhne razlike, priporočiti znamko, ki sem jo na sliki označil z rdečo in ima v povprečju nižjo porabo (in kosi dlje časa)? Naši zaključki bodo odvisni ne samo od naših rezultatov ampak tudi od okoliščin, ki so za nas pomembne (npr. že omenjena cena goriva in velikost površine za košenje).

Še en primer, s katerim se nekateri pogosto srečamo, so različna razmerja , recimo v številu samcev in samic v danem vzorcu (ali npr. v primeru anket, deležev). Ali bi rekli, da je razmerje v populaciji 20 samcev in 20 samic na podlagi  vzorca 40 živali uravnoteženo ali v prid kateremu spolu?

> chisq.test(c(20, 20), p = c(0.5, 0.5))

    Chi-squared test for given probabilities

        data:  c(20, 20)

    X-squared = 0, df = 1, p-value = 1

P-vrednost hi-kvadrat testa nam namiguje, da sta v vzorcu 20 samcev in 20 samic enako zastopana. Tudi intuitivno bi tako rekli. Kaj pa 18 proti 22 v prid samicam?

Hi-kvadrat (𝛘2-kvadrat, angl. chi square, kar izgovorijo “kaj”) test (lahko med drugim) primerja dve števili in ju tehta, če sta si podobni glede na dano hipotezo. V zgornjem primeru sem predpostavljal, da bo razmerje samcev in samic v vzorcu 50:50, metodi “nahranil” podatke in ta mi svetuje, ali je s to metodo ta rezultat glede na značilnosti testa, “čuden”. Če sta si števili relativno podobni glede na dano hipotezo, bo poročal, da med njima ni zaznavne razlike*.

Pred kratkim sem se zamislil, ali je spolno razmerje v vzorcih 18 samcev in 33 samic uravnoteženo, ob predpostavki, da v vzorcih pričakujemo razmerje 50:50. Poglejmo kaj pravi test.

Chi-squared test for given probabilities

    data:  c(18, 33)

X-squared = 4.4118, df = 1, p-value = 0.03569

Test nam namiguje, da je manj verjetno, da bi ob pričakovanem razmerju 50:50 zgolj po naključju bolj težko prišlo do videnega rezultata. Do tega je prišlo zaradi najmanj ene od treh stvari:

  • zgolj po naključju, tudi če je v naravi razmerje 50:50,
  • v naravi razmerje ni 50:50 in je vzorec samo dober odraz stanja v naravi ali
  • vzorec je pristranski (ni bil nabran naključno).

Kako bo to vplivalo na našo odločitev pa je kot v prvem primeru s kosilnicami odvisno od konteksta. Za nekatere namene je tak rezultat lahko dovolj dober, za druge pa nikakor. Zamislimo si, da ste si udarili prst. Če ga pustite, da se pozdravi sam, bo do konca vašega življenja kriv, če pa se odločite za operacijo, pa je verjetnost 1/20 (0.05), da bo operacija za vas smrtna. Ali bi se odločili za operacijo, če je posledica vaše odločitve “le” kriv prst?

Na tviterju je biostatistik Roger D. Peng postavil vprašanje, po koliko metih mu verjamemo, ali ima pristranski ali fer kovanec (H = head/glava, T = tail/številka). Najboljši komentar je postavil Keith Williams, ko je vprašal, kakšna je cena, če se zmotimo. Kot bi rekli ameriški kolegi, “game-set-match”.

twitter_roger

Upam, da sem vas implicitno prepričal, da rezultati niso nikoli čudni, ampak je to stvar naše interpretacije. Odločamo se na podlagi poznavanja pojava in posledic, ki jih naša (ne)odločitev nosi. Statistika nam nam sama po sebi ne odgovori na zastavljeno vprašanje, nam pa pomaga do bolj obveščene odločitve.


Komentiraj

Vzorčenje v dobi masivnih podatkov

“Kdaj lahko rešeš, da imaš “big data”? Ko je datoteka tako velika, da je ne moreš odpreti na svojem računalniku.” Nekako takole smo se, malo za hec malo za res, do masivnih podatkov (slovenski izraz za “big data”) opredelili na večerji s kolegom, ki dela na Googlu,  ko je pred letom ali dvema obiskal naš raziskovalni center. “Big data” v marsikaterih krogih velja za modno muho (“buzzword”), saj se zadnje čase uporablja vsevprek – bil je na primer ena izmed glavnih tem na lanskih konferencah AAPOR in Webdatanet ter tudi osrednja tema Statističnega dne. Sicer pa imajo masivni podatki že več desetletno zgodovino in za marsikoga, ki se ukvarja z obdelavo podatkov in statistiko, taka podatkovja, niso nič novega. Res pa je, da tako velikost kot obseg tovrstnih podatkov vse hitreje naraščata.

Masivni podati pomenijo številne priložnosti za praktično uporabo na več področjih – o tem je na primer govori Kennet Cukier (urednik pri reviji The Economist)  v TED videu ‘Big data is better data’ – v tej objavi pa nas nasprotno zanimajo predvsem izzivi, ki jih prinašajo za delo nas, statistikov. Čeprav masivni podatki zaradi kompleksnosti in velikosti zahtevajo drugačne pristope k analizi, ti pristopi še vedno stojijo na starih temeljih, so ugotavljali na okrogli mizi na lanskem Statističnem dnevu. Pa tudi zbiranje podatkov s spraševanjem bo še dolgo relevantno.

Kakšna pa je v dobi masivnih podatkov vloga vzorčenja, tj. izbiranja enot iz populacije v vzorec? Zakaj se zadovoljiti  le z vzorcem enot, če lahko dostopamo do celotne populacije? En razlog je seveda to, da je včasih manj več – bolj kot velikost podatkovja je namreč pomembno to, da podatki koneceptualno ustrezajo temu, kar želimo meriti. Toda tudi v primeru, da masovovni podatki niso pristranski, se v praksi še vedno uporablja vzorčenje. Zakaj? Če se vrnem k večerji, s katero sem začela ta prispevek. Kolega z Googla nam je povedal zgodbo, kako je od statistika na sosednjem oddelku potreboval določeno poizvedbo in bil presenečen, da je ta ni pognal na celotni bazi, ampak le na vzorcu podatkov. Podatkovna baza je bila namreč tako masivna, da jih  niti z najboljšimi računalniki ne zmorejo učinkovito obdelati.

Na to anekdoto sem se spomnila lani, med gledanjem tretje sezone ameriške nadaljevanke House of cards. Doug Stamper (Michael Kelly), išče Rachel Posner (Rachel Brosnahan), ki bi lahko bila pomembna priča v morebitnem procesu proti predsedniku Franku Underwoodu (Kevin Spacey). Obrne se na hekerja Gavina Orsaya (Jimmi Simpson), ki je zaposlen na FBI oddelku za kibernetski kriminal. Gavinu uspe dostop do posnetkov prometnih kamer, v katerih potem išče njen obraz. Vendar je podatkov veliko preveč, da bi zmogel obdelati vse, zato s tehnologijo zaznavanja obraza pregleduje samo slučajno izbran vzorec 10% posnetkov. Vzorca ne more povečati, saj bi to sprožilo varnostne alarme.

HoC1-MOTION

Če še kdo ni gledal tretje sezone serije in se želi izogniti kvarnikom, naj ta odstavek preskoči. Za optimizacijo iskanja Gavin potrebuje dodatne informacije o Rachel, zato se spoprijatelji z njeno nekdanjo prijateljico Liso Williams (Kate Lyn Sheil). Od dekleta izve, da sta se pogovarjali o pobegu v zvezno državo Nova Mehika. Na podlagi teh podatkov lahko Gavin iskanje omeji na manjši obseg in mu jo uspe izslediti. Kako se zgodba konča, pa si sami poglejte.

Danes se je začela nova sezona nadaljevanke in zanimivo bo videti, ali bo statistika spet imela kakšno posebno vlogo v zgodbi. Ta se v filmih, nadaljevankah in na sploh v popularni kulturi tako redko pojavlja, da smo toliko bolj pozorni še na najmanjšo omembo.

Svet, kjer ne bi potrebovali inferenčne statistike,  pa je zaenkrat še domena znanstvene fantastike.


1 komentar

Sam po SURSu, se sprehajam, grafe rišem, deklica ti

Še pomnite tovariši, ko nas je v večjem delu Slovenije prizadela ujma, ki je živi spomin ne pomni? Govorim seveda o februarskem žledu leta 2014. Posledic še danes nismo uspeli odpraviti v celoti, kar z vidika organizmov v gozdu seveda ni problem.

V prvih dneh po ujmi je bil del Slovenije odrezan od sveta, saj je bilo veliko gospodinjstev brez električne energije. Takrat sem postavil hipotezo, da bo to super čas za negledanje televizije (pomežik pomežik, dreg s komolcem) in bo po gestacijski dobi značilni za človeka (to je doba devetih mesecev, ko se zarodek razvija v materi) mogoče zaznati povečano število rojstev. V letu 2016 je to s pomočjo statističnih podatkov, ki jih vodi Statistični urad republike Slovenije (v nadaljevanju: SURS), moč preveriti.

S strani o Prebivalstvu sem posnel podatke o rojstvih po mesecih za zadnja štiri leta. Če 10.2.2014 prištejemo 240 dni (kolikor časa v povprečju traja nosečnost), dobimo kot rezultat 8.10.2014. Poglejmo število rojstev v septembru in novembru, predvsem pa oktobru. Nadaljujte z branjem


5 komentarjev

Štiri anketne napake na primeru predreferendumskih anket

V nedeljo bo potekal zakonodajni referendum, na katerem se bo glasovalo o vprašanju, ali naj se uveljavi Zakon o spremembah in dopolnitvah Zakona o zakonski zvezi in družinskih razmerjih (ZZZDR-D), ki ga je Državni zbor sprejel 3. marca 2015. Glas ZA bo podprl spremembo besedila 3., 12. in 16. člena zakona, kar bo omogočilo, da lahko zakonsko zvezo skleneta tudi osebi istega spola.

IMG_2540

Istospolna poroka v Redwood National Park v Kaliforniji, ki sem ji – povsem po naključju – prisostvovala ob obisku parka maja 2014. V Kaliforniji so istospolne poroke legalne od junija 2008.

Kakšen izid referenduma lahko pričakujemo? Nadaljujte z branjem


Komentiraj

Prejeli smo priznanje odličnosti statističnega poročanja v medijih

Snovalci bloga Udomačena statistika smo prejeli priznanje za Odličnost statističnega poročanja v medijih za leto 2015. To je priznanje, ki ga Statistično društvo Slovenije vsako leto “podeli novinarju ali drugemu poročevalcu, ki v medijih strokovno pravilno poroča o statistiki ali uporabi statistiko na način, ki presega običajno raven. Priznanje se lahko podeli tudi za medijsko poročanje o statistiki, ki prispeva k večjemu ugledu statistične stroke v najširši javnosti,” je zapisano v društvenem pravilniku o podeljevanju priznanj.

20151208_161522

Ana Slavec in prof. dr. Andrej Blejec, predsednik Statističnega društva Slovenije

Veseli smo, da je naše delo na področju promocije statistike cenjeno in v čast nam je, da smo se se s tem znašli v imenitni družbi nagrajencev iz preteklih let, uredništva Dnevnikovega Objektiva, Slavka Jeriča, avtorja portala Športni SOS in uredništva časnika Delo. Čeprav sami nimamo takega dosega kot prejšnji dobitniki – v aktivnih mesecih nas glede na WordPress statisitko obišče okrog Nadaljujte z branjem