Udomačena statistika

Mladi statistiki pišemo blog.


Komentiraj

Uvod v modeliranje in statistične vidike COVID-19

V zapisu bom spregovoril o nekaterih ključnih modelih sedanje pandemije bolezni COVID-19, ki so nastali v Sloveniji. Pri tem se bom navezal na obstoječo literaturo v mednarodnih krogih, ki je v zadnjih dveh mesecih eksplodirala po verjetno prvi tovrstni študiji Kucharskega in kolegov v februarju 2020.

Nadaljujte z branjem


5 komentarjev

Potrebujemo sistematično vzorčenje slovenske populacije na protitelesa za COVID-19

scientist-testing-samples-3912368-1

Trenutno se na epidemijo odzivamo, ne da bi imeli o njej na voljo podatke na ravni celotne populacije. Ni zanesljive ocene deleža ljudi, ki so zboleli za COVID-19, saj se ljudi testira na podlagi protokola z vključitvenim kriterijem (vir). Takšno testiranje je potrebno za pravilno obravnavo pacientov. Ker pa gre za neverjetnostno vzorčenje, iz števila tako potrjenih okuženih ni možno sklepati na število vseh okuženih v Sloveniji. To ekstrapolacijo otežuje tudi dejstvo, da virus pri velikem delu populacije poteka asimptomatsko ali z blažjimi simptomi. Nadaljujte z branjem


1 komentar

Rast koronavirusa v Sloveniji (do 14. 3. 2020 do 20h)

Opomba: Prvo različico (podatki za 12. 3.) smo objavili 13. 3. ob 13:20, nato smo besedilo dvakrat posodobili: drugo različico (podatki za 13. 3.) smo objavili 13. 3. ob 20:24, tretjo različico (podatki za 14. 4.) pa 14. 4. ob 21:24. Po tem datumu spodnjega besedila nismo več posodobljali, saj se je spremenil protokol testiranja in podatki niso več primerljivi.

4. marca je bila potrjena prva okužba s koronavirusom SARS-CoV-2 (COVID-19) v Sloveniji. Želel sem preveriti, kako se je od takrat gibalo število okužb v Sloveniji v primerjavi z okoliškimi državami, saj tovrstne analize za našo državo nisem zasledil. Nadaljujte z branjem


Komentiraj

O konferenci Royal Statistical Society v Belfastu 2019

Naslovna slika

Vir: RSS

Med 2. in 5. septembrom 2019 je v severno-irskem Belfastu potekala letna konferenca krovnega britanskega statističnega združenja Royal Statistical Society (RSS). Konference sem se udeležil drugič, z dvema prispevkoma (enim v osrednjem, metodološkem delu konference in eno kratko predstavitvijo).

RSS je bila ustanovljena leta 1834 kot londonsko statistično društvo in je eno statističnih združenj z najdaljšo tradicijo. Med ustanovnimi člani velja omeniti imena, kot so Richard Jones, Charles Babbage, Adolphe Quetelet, William Whewell in Thomas Malthus, kmalu se je združenju kot prva ženska pridružila tudi Florence Nightingale. Prva ženska predsednica združenja je bila Stella Cunliffe, zanimivo pa je omeniti, da je tudi trenutna predsednica ženska, Deborah Ashby (več tukaj). Med drugimi znanimi osebami, ki so vodile RSS, omenimo še Williama Beveridgea, Ronalda Fisherja, Harolda Wilsona in seveda živečo legendo področja, Sira Davida Roxbeeja Coxa, ki se konferenc še vedno pogosto udeleži (na tej ga sicer nisem opazil).

Nadaljujte z branjem


Komentiraj

O metodah analize ekstremnih vrednosti in prihajajoči konferenci v Zagrebu

V začetku meseca julija bo v Zagrebu potekal večji statistični dogodek, osrednja konferenca s področja metod analize ekstremnih vrednosti (EVA). Konference s tega področja, ki jih soorganizira tudi osrednje statistično združenje Bernoulli, so se pričele v letu 1997 v švedskem Göteborgu, zadnja pa je potekala leta 2017 v Delftu na Nizozemskem. Tokratna konferenca bo potekala med 1. in 5. julijem 2019 na oddelku za matematiko Univerze v Zagrebu.

Nadaljujte z branjem


Komentiraj

Kdaj rečemo, da so rezultati čudni?

Pogosto se srečam z vprašanjem ali mislijo, če je to kar vidim iz podatkov čudno? Za čudno navadno smatram nekaj, česar ne pričakujem, da se bo zgodilo. Denimo, da bom zadel na loteriji, kar bi bil sorodnik čudnega, čudež tako zvani.

V statistiki se srečujemo z razlikami v povprečjih, za kar že tradicionalno uporabljamo t-test (če gre za razliko med dvema skupinama) in sorodne metode. Test je svoje ime dobil po porazdelitvi t, s pomočjo katere ocenimo ali gre za čudno razliko v povprečjih ali ne. Več o tem testu je pisal Črt v prispevku Zakaj je pivo tako dobro ali kdo je Student.

Poglejmo si kako gledamo na razlike v povprečjih s pomočjo praktičnega primera. Denimo, da imamo na voljo kosilnice za travo znamk Fergucon iz Wajdušne in Tomo Ovinkelj iz Raven na Koroškem. Od vsakega podjetja imamo na razpolago petdeset naprav. Predpostavimo, da imajo vse kosilnice enako velik rezervoar za bencin, ki ga napolnimo z enako količino goriva. Kosilnice uporabljamo dokler bencina ne zmanjka in ne ostanemo na travniku kot župniki s Primorske. Za vsako napravo zabeležimo čas obratovanja. Iz teh podatkov za vsako znamko naredimo frekvenčni diagram (število kosilnic, ki je porabila določeno količino goriva), ki bi simbolno prikazan izgledal nekako tako kot prikazuje slika spodaj.

poraba_goriva_velika_razlika

Povprečna poraba goriva kosilnic (o povprečjih več tu) ene in druge znamke je približno 30 in 50 minut, z nekaj odstopanja od povprečja. Drugače povedano je največ kosilnic obratovalo 30 oz. 50 minut, nekaj pa tudi več in manj.

Ali bi rekli, da se povprečna časa obratovanja teh dveh znamk razlikujeta? Na pomoč pri odgovoru nam lahko priskoči t-test. Odgovarja na vprašanje ali lahko, na podlagi števila meritev in razlike v povprečjih ter variance rečemo, da je med povprečji dovolj velika razlika.

Kaj pa če bi dobili takle rezultat? V tem primeru sta povprečja zelo skupaj, razlika v porabi goriva izgleda majhna.

poraba_goriva_majhna_razlika

Bi na podlagi te slike znali kupcu svetovati pri najboljšem nakupu, da bo lahko za sodček bencina kar se da dolgo lahko kosil travnik? Pri zadnjem primeru verjetno ni velikih (signifikantnih) razlik in bi rekli, da je vseeno katero znamko kupi. Seveda predvidevajoč, da gre pri obeh znamkah za primerljive naprave s primerljivo stopnjo udobja sedežev, oblazinjenim volanom, bleščečim kesonom, varnostjo zavor, debelino profila na kolesih, glasnost obratovanja, težavnost vzdrževanja, ipd. Temu rečemo predpostavke, ki so pomemben del v vsakodnevnem delu (in življenju?) statistika.

Kaj pa če bi bila cena bencina astronomsko visoka? Ali bi se splačalo, glede na majhne razlike, priporočiti znamko, ki sem jo na sliki označil z rdečo in ima v povprečju nižjo porabo (in kosi dlje časa)? Naši zaključki bodo odvisni ne samo od naših rezultatov ampak tudi od okoliščin, ki so za nas pomembne (npr. že omenjena cena goriva in velikost površine za košenje).

Še en primer, s katerim se nekateri pogosto srečamo, so različna razmerja , recimo v številu samcev in samic v danem vzorcu (ali npr. v primeru anket, deležev). Ali bi rekli, da je razmerje v populaciji 20 samcev in 20 samic na podlagi  vzorca 40 živali uravnoteženo ali v prid kateremu spolu?

> chisq.test(c(20, 20), p = c(0.5, 0.5))

    Chi-squared test for given probabilities

        data:  c(20, 20)

    X-squared = 0, df = 1, p-value = 1

P-vrednost hi-kvadrat testa nam namiguje, da sta v vzorcu 20 samcev in 20 samic enako zastopana. Tudi intuitivno bi tako rekli. Kaj pa 18 proti 22 v prid samicam?

Hi-kvadrat (𝛘2-kvadrat, angl. chi square, kar izgovorijo “kaj”) test (lahko med drugim) primerja dve števili in ju tehta, če sta si podobni glede na dano hipotezo. V zgornjem primeru sem predpostavljal, da bo razmerje samcev in samic v vzorcu 50:50, metodi “nahranil” podatke in ta mi svetuje, ali je s to metodo ta rezultat glede na značilnosti testa, “čuden”. Če sta si števili relativno podobni glede na dano hipotezo, bo poročal, da med njima ni zaznavne razlike*.

Pred kratkim sem se zamislil, ali je spolno razmerje v vzorcih 18 samcev in 33 samic uravnoteženo, ob predpostavki, da v vzorcih pričakujemo razmerje 50:50. Poglejmo kaj pravi test.

Chi-squared test for given probabilities

    data:  c(18, 33)

X-squared = 4.4118, df = 1, p-value = 0.03569

Test nam namiguje, da je manj verjetno, da bi ob pričakovanem razmerju 50:50 zgolj po naključju bolj težko prišlo do videnega rezultata. Do tega je prišlo zaradi najmanj ene od treh stvari:

  • zgolj po naključju, tudi če je v naravi razmerje 50:50,
  • v naravi razmerje ni 50:50 in je vzorec samo dober odraz stanja v naravi ali
  • vzorec je pristranski (ni bil nabran naključno).

Kako bo to vplivalo na našo odločitev pa je kot v prvem primeru s kosilnicami odvisno od konteksta. Za nekatere namene je tak rezultat lahko dovolj dober, za druge pa nikakor. Zamislimo si, da ste si udarili prst. Če ga pustite, da se pozdravi sam, bo do konca vašega življenja kriv, če pa se odločite za operacijo, pa je verjetnost 1/20 (0.05), da bo operacija za vas smrtna. Ali bi se odločili za operacijo, če je posledica vaše odločitve “le” kriv prst?

Na tviterju je biostatistik Roger D. Peng postavil vprašanje, po koliko metih mu verjamemo, ali ima pristranski ali fer kovanec (H = head/glava, T = tail/številka). Najboljši komentar je postavil Keith Williams, ko je vprašal, kakšna je cena, če se zmotimo. Kot bi rekli ameriški kolegi, “game-set-match”.

twitter_roger

Upam, da sem vas implicitno prepričal, da rezultati niso nikoli čudni, ampak je to stvar naše interpretacije. Odločamo se na podlagi poznavanja pojava in posledic, ki jih naša (ne)odločitev nosi. Statistika nam nam sama po sebi ne odgovori na zastavljeno vprašanje, nam pa pomaga do bolj obveščene odločitve.


Komentiraj

Pogovor z Janezom Kokošarjem

janez_kokosar_1600x1024

Vir fotografije: osebni arhiv JK

Že ob prvem pogovoru smo napovedali, da se bomo v rubriki Pogovori poleg z doktorandi in profesorji pogovarjali tudi s praktiki, to je uporabniki statistike iz podjetij, ki statistiko uporabljajo pri svojem poslu. Prvi intervjuvanec v tej kategoriji je biokemik dr. Janez Kokošar, ki je leta 2013 doktoriral s področja genetike, ukvarja pa se s področjem bioinformatike, kjer ga med drugim zanima molekularna evolucija ter analiza genomov. S podjetjem Genialis sodeluje pri razvoju informacijskih rešitev za analizo genomskih podatkov. Nadaljujte z branjem