Udomačena statistika

Študenti statistike pišemo blog.


Komentiraj

Barčica po valovih plava – o waveletih in neparametrični statistiki

Neparametrična statistika je veliko področje statistike, ki se zelo hitro razvija. Za razliko od običajnih metod neparametrične ne zahtevajo nekaterih predpostavk, denimo takih, ki so povezane s porazdelitvijo izbranih statistik. Najpogostejši problemi, ki jih rešujemo s tovrstnimi metodami so ocenjevanje porazdelitvene funkcije, ocenjevanje osnovnih statistik, kot je denimo povprečje, ocenjevanje verjetnostne gostote in določanje krivulj, ki se najbolje prilegajo podatkom. Odprto dostopna monografija, kjer je področje dobro predstavljeno je Wassermanova All of Nonparametric Statistics. Krovna organizacija področja je ISNPS – International Society for Nonparametric Statistics, ki organizira redne konference, naslednja bo potekala leta 2020 na Cipru.

Sam sem bil pred letom dni sprejet na njihovo konferenco v Salernu s prispevkom o uporabi »valovanj« (angl. wavelets) v regresijski analizi mešanic in s tem prišel v malce tesnejši stik s področjem, ki ga od tedaj ohranjam. V tem zapisu zato predstavljam omenjeno posebno obliko neparametričnih funkcij – valovanja oz. wavelets, ki dobivajo vedno več pozornosti in tudi uporab v sodobnih teoretskih in empiričnih analizah.

V temelju bi lahko velik del neparametrične statistike poimenovali tudi »glajenje«, saj skuša najti čim primernejše funkcije za prileganje podatkom, ki nimajo običajnih linearnih ali preprostejših funkcijskih oblik. Tako je zelo znana uporaba kernelnih in lokalno polinomskih funkcij (npr. lokalno konstantna, velikokrat povezana z znano Nadaraya-Watson cenilko ali lokalno linearna).

Nekoliko drugačna oblika so t.i. lokalne prilagoditvene cenilke, med katere sodijo tudi valovanja. Pri slednjih gre za nekakšne trigonometrične (“sinusne”) funkcije, ki so v obliki valovanj oz. nihanj. S prilagoditvami koeficientov in števila ocenjenih členov, ki tvorijo osnovni zapis valovanja (spodaj, funkcije phi so očetna, funkcije psi pa materna valovanja) lahko ustvarimo primerno prileganje podatkom. Očetna valovanja določajo položaj funkcije, materna pa njeno obliko.

Bistvo metode valovanj je torej ocena valovalne/sinusne funkcije, ki se bo čim bolj prilegala podatkom. V ta namen osnovno funkcijo razdelimo na dva večja že prej omenjena dela: očetna (father, tudi scaling) in materna (mother) valovanja in posebej ocenjujemo koeficiente pri obeh. Tako očetna kot materna valovanja tvorijo ortonormirano osnovo (sestavljeno iz baznih vektorjev, ki so paroma pravokotni in enotski), ki se velikokrat uporablja za preslikavo v prostore višjega reda, kot so prostori Besova in Triebela, zlasti prvi so močno povezani s kompleksnejšimi analizami valovanj.

V zgodovini statistike se razvoj valovanj povezuje z imenom matematika Josepha Fourierja, še bolj pa Paula Levyja, Davida Marra, Guida Weissa, Ronalda R. Coifmana in Stephanea Mallata. Danes obstaja vrsta različnih oblik takšnih valovanj, podobno kot statistične porazdelitve jih lahko delimo v zvezna in diskretna valovanja. Le nekateri najbolj znani primeri so Haarovo, Mathieujevo, Legendrovo, symmlet, coiflet in Daubechiesjevo valovanje med diskretnimi ter beta, hermitsko, Poissonovo in Shannovo valovanje med zveznimi. Nekatera od njih so prikazana na spodnji sliki (Step funkcija denimo ustreza Haarovemu valovanju).

Kje se takšna oblika prilagoditvenih funkcij uporablja? Najprej, pri analizi časovnih vrst. Spodaj je primer uporabe analize valovanj pri napovedovanju potresov, na levi sliki je prikazano osnovno gibanje, na desni je prilagoditev z uporabo funkcije valovanja, ki je očiščena številnih nihanj in odstopanj v podatkih.

Drug takšen primer je analiza slik – z uporabo metode valovanja lahko zelo učinkovito razgradimo sliko na njene sestavne dele, podobno, kot se včasih to analizira z metodo glavnih komponent. V analiz na spodnji sliki je bila metoda valovanja uporabljena za razgradnjo slike ženske najprej na dve komponenti, nato pa še naprej na štiri (kasneje bi lahko takšno razgradnjo nadaljevali še naprej – na osem, šestnajst, itd.).

Tovrstnih metod je na bogatem področju neparametrične statistike še kar precej – verjetno se v enem od naslednjih prispevkov tako posvetimo različnim metodam z uporabo kernelov. Ob koncu dodajmo še nekaj dobrih preglednih besedil o metodah valovanja: odlična pregledna prispevka Anestisa Antoniadisa, osnovni in posodobljeni; besedilo Piotra Fryzlewicza; kratek “tečaj” Pedra A. Morettina; besedilo Abramovicha in kolegov; ter uvod v valovanja Amare Graps.

Advertisements


Komentiraj

Nova Udomačena statistika

3249101355_bcf4aa50cb_b

Foto: J. Moran (Flickr)

Piše se leto 2019 in čez tri mesece bomo obeležili šesto obletnico obstoja bloga. Od začetkov v mednarodnem letu statistike preko prejema nagrade Statističneaga društva Slovenije za odličnost poročanja v medijih v letu 2015 do danes se izgled bloga ni bistveno spremenil. V ozadju pa smo pred kratkim odločil za dve pomembni novosti, ki ju želim predstaviti v tej objavi.

1. Prenovljen uredniški model bloga

Udomačena statistika je študentski blog, vendar njeni snovalci nismo več študenti, kar zahteva razmislek, ali je ta oznaka še ustrezna. Hkrati so objave postale vse redkejše in potrebujemo okrepitve. Iščemo novo generacijo doktorskih študentov statistike, ki bo prevzela pisanje in urednikovanje, vendar to ni dovolj. Koncept bloga smo se odločili razširiti, da bo dovoljeval širši nabor avtorjev. K pisanju vabimo vse, ki se v Sloveniji ukvarjate s katerimkoli področjem statistike. Če vas zanima sodelovanje, nam pišite preko kontaktnega obrazca.

Poleg pomanjkanja avtorjev je težava tudi zamuden recenzentski postopek, ki je zahteval, da vsako objavo pregledata vsaj dva člana uredništva. Odločili smo se omiliti tako, da skrajšamo čas za pregled na en teden (za krajše in preprostejše objave) do dva tedna (za daljše in kompleksnejše objave). Če po enem oziroma dveh tednih ne bo nobenih pripomb, gre prispevek v tehnični pregled in objavo.

2. Skupina Udomačeni statistiki

Udomačena statistika že dolgo ni več samo blog. Že od leta 2013, ko je nastala, urejam istimensko Facebooku stran in Twitter profil, kjer sem poleg povezav do objav na blogu objavljala tudi druge zanimive vsebine povezane s statistiko. Nabralo se je več kot 300 sledilcev na Facebooku in več kot 400 na Twitterju. Ker sem v zadnjih letih imela vse manj časa za objave, sem lani sprejela ponudbo za pomoč in kot urednik Facebook strani se mi je pridružil dr. Andrej Srakar.

Ker sama ne moreva pokriti vseh področij statistike, se je porodila ideja o odprti skupini, kjer bi lahko vsak član objavljal s svojim imenom in priimkom, kar bi zamenjalo trenutno enostransko komunikacijo na strani. Prvega januarja sva ustanovila Facebook skupino Udomačeni statistiki (namenoma v množini), v katero vabiva vse, ki se v Sloveniji profesionalno ali ljubiteljsko ukvarjate s statistiko oziroma vas to področje zanima. Ime skupine je Udomačeni statistiki (namenoma v množini).

Moderatorja sva postavili tudi nekaj pravil, v upanju, da bo skupina razvila v prostor, v katerem bodo člani lahko delili vsebine s (širšega) področjem statistike, za katere menijo, da so zanimive za slovensko statistično skupnost. Če so povezane s statistiko, je dovoljeno je tudi promovirati svoje objave, članke, knjige, spletne strani, dogodke, itd. Člani bodo skupino uporabljali za postavljanje vprašanj in iskanje pomoči, vendar v razumnem obsegu, saj namen skupine ni nudenje brezplačne pomoči pri uporabi statističnih metod.

Veseli bomo vašega sodelovanja in odzivov.


Komentiraj

Vzročno sklepanje – kratek pregled področja

Kavzalnost - Naslovna slika

Vir: xkcd

Čeprav lahko znanost definiramo na mnogo načinov, je zagotovo eden njenih temeljev vzročno sklepanje, torej sklepanje o razmerjih med opaženimi pojavi. Iz statistike je dobro znana krilatica “korelacija ne pomeni kavzalnosti”, ki je dejansko eden začetkov, kjer lahko pričnemo našo zgodbo. Verjetno je prav zaradi zmožnosti preučevanja in dokazovanja povezav med pojavi statistika neločljiv del tako rekoč vsakega znanstvenega raziskovanja. Nadaljujte z branjem


Komentiraj

Modeliranje časovnih vrst: med makroekonometrijo in sodobno statistiko

Ko sem se sam med mojim prvim doktorskim študijem, študijem ekonomije, srečeval z ekonometrijo, je bilo eno zanimivejših branj in poslušanj vezano na poletne inštitute NBER. Slednji so se pričeli s pregledom stanja v sodobni ekonometriji, ki sta ga izvedla dva izmed trenutno vodilnih svetovnih ekonometrikov, Guido Imbens in Jeffrey Wooldridge (vse prezentacije in odlična gradiva so še vedno dostopna tukaj). V naslednjem letu je sledil kot poseben del še: “pregled stanja v sodobni ekonometriji – časovne vrste” (tudi ta gradiva v celoti najdete tukaj), ki sta ga izvedla James Stock in Mark Watson.

Časovne vrste imajo torej že dolgo prav posebno mesto v statistiki, in še bolj specifično, ekonometriji. Pogosto niso del običajnih učbenikov oziroma se slednji velikokrat delijo na mikroekonometrijo (ki zajema tudi ekonometrijo panelnih podatkov, ki je sicer križanec presečnih podatkov in časovnih vrst) in ekonometrijo časovnih vrst. Še danes so le redki poskusi križanj, le počasi se tako denimo v ospredje prebijajo modeli panelne vektorske avtoregresije (t.i. panelni VAR oziroma PVAR).

Nadaljujte z branjem


Komentiraj

Simbolna analiza podatkov in analiza mešanic: statistika in geometrija, 2. del

 

Slika 1 Aitchison

Slika 1: John Aitchison (Vir: Wikipedia)

V drugem prispevku o simbolni analizi podatkov bomo govorili o sorodni metodi – analizi mešanic (angl. compositional data analysis, velikokrat boste srečali tudi kratico CoDa). Metodo analize mešanic je v statistiki utemeljil in razvil nedavno preminuli škotski statistik John Aitchison, ki je za delo na tem področju leta 1988 prejel tudi srebrno Guyjevo medaljo britanskega Kraljevega statističnega društva, ki velja za eno najprestižnejših statističnih priznanj na svetu.

Nadaljujte z branjem


Komentiraj

Simbolna analiza podatkov in analiza mešanic: statistika in geometrija, 1. del

Slika 1

Edwin Diday, ki je skupaj z Lynne Billard začetnik simbolne analize podatkov (Vir: modulad.fr)

V prispevku, ki je moj prvi na Udomačeni statistiki, želim kratko predstaviti dve metodi, s katerima sem se srečal v prvem letniku doktorskega študija statistike in se “zaljubil” vanju. Prvo, analizo simbolnih podatkov (angl. symbolic data analysis) sem spoznal pri predavanjih predmeta Sodobni statistični pristopi, kjer nam je o njej predavala doc. dr. Simona Korenjak Černe z Ekonomske fakultete. Drugo, analizo mešanic (angl. compositional data analysis) pa, zanimivo, bolj po naključju prek običajnega dnevnega statističnega in ekonometričnega brskanja po internetu. Najprej sem odkril, da je zanjo velik specialist tudi sedanji predsednik Statističnega društva Slovenije, prof. dr. Matevž Bren. Nato pa še večje presenečenje: da je na tem področju mednarodna referenca (kolikor mi je to znano) prof. dr. Tim Fry, ekonometrik in dekan Šole za ekonomijo, finance in marketing na RMIT v Melbournu (eni najboljših avstralskih univerz) ter odgovorni za organizacijo konference svetovnega združenja kulturnih ekonomistov ACEI drugo leto v Melbournu, pri kateri sem tudi sam v programskem znanstvenem odboru (kot nekdo, ki že več kot desetletje zelo aktivno deluje tudi na področju kulturne ekonomike). S prof. Fryjem pripravljava članek o uporabi metode analize mešanic pri analizi mednarodne menjave s kulturnimi dobrinami za nekatere statistične probleme, ki niso povsem običajno rešljivi z najbolj enostavnimi pristopi analize mešanic.

Nadaljujte z branjem


Komentiraj

Kdaj rečemo, da so rezultati čudni?

Pogosto se srečam z vprašanjem ali mislijo, če je to kar vidim iz podatkov čudno? Za čudno navadno smatram nekaj, česar ne pričakujem, da se bo zgodilo. Denimo, da bom zadel na loteriji, kar bi bil sorodnik čudnega, čudež tako zvani.

V statistiki se srečujemo z razlikami v povprečjih, za kar že tradicionalno uporabljamo t-test (če gre za razliko med dvema skupinama) in sorodne metode. Test je svoje ime dobil po porazdelitvi t, s pomočjo katere ocenimo ali gre za čudno razliko v povprečjih ali ne. Več o tem testu je pisal Črt v prispevku Zakaj je pivo tako dobro ali kdo je Student.

Poglejmo si kako gledamo na razlike v povprečjih s pomočjo praktičnega primera. Denimo, da imamo na voljo kosilnice za travo znamk Fergucon iz Wajdušne in Tomo Ovinkelj iz Raven na Koroškem. Od vsakega podjetja imamo na razpolago petdeset naprav. Predpostavimo, da imajo vse kosilnice enako velik rezervoar za bencin, ki ga napolnimo z enako količino goriva. Kosilnice uporabljamo dokler bencina ne zmanjka in ne ostanemo na travniku kot župniki s Primorske. Za vsako napravo zabeležimo čas obratovanja. Iz teh podatkov za vsako znamko naredimo frekvenčni diagram (število kosilnic, ki je porabila določeno količino goriva), ki bi simbolno prikazan izgledal nekako tako kot prikazuje slika spodaj.

poraba_goriva_velika_razlika

Povprečna poraba goriva kosilnic (o povprečjih več tu) ene in druge znamke je približno 30 in 50 minut, z nekaj odstopanja od povprečja. Drugače povedano je največ kosilnic obratovalo 30 oz. 50 minut, nekaj pa tudi več in manj.

Ali bi rekli, da se povprečna časa obratovanja teh dveh znamk razlikujeta? Na pomoč pri odgovoru nam lahko priskoči t-test. Odgovarja na vprašanje ali lahko, na podlagi števila meritev in razlike v povprečjih ter variance rečemo, da je med povprečji dovolj velika razlika.

Kaj pa če bi dobili takle rezultat? V tem primeru sta povprečja zelo skupaj, razlika v porabi goriva izgleda majhna.

poraba_goriva_majhna_razlika

Bi na podlagi te slike znali kupcu svetovati pri najboljšem nakupu, da bo lahko za sodček bencina kar se da dolgo lahko kosil travnik? Pri zadnjem primeru verjetno ni velikih (signifikantnih) razlik in bi rekli, da je vseeno katero znamko kupi. Seveda predvidevajoč, da gre pri obeh znamkah za primerljive naprave s primerljivo stopnjo udobja sedežev, oblazinjenim volanom, bleščečim kesonom, varnostjo zavor, debelino profila na kolesih, glasnost obratovanja, težavnost vzdrževanja, ipd. Temu rečemo predpostavke, ki so pomemben del v vsakodnevnem delu (in življenju?) statistika.

Kaj pa če bi bila cena bencina astronomsko visoka? Ali bi se splačalo, glede na majhne razlike, priporočiti znamko, ki sem jo na sliki označil z rdečo in ima v povprečju nižjo porabo (in kosi dlje časa)? Naši zaključki bodo odvisni ne samo od naših rezultatov ampak tudi od okoliščin, ki so za nas pomembne (npr. že omenjena cena goriva in velikost površine za košenje).

Še en primer, s katerim se nekateri pogosto srečamo, so različna razmerja , recimo v številu samcev in samic v danem vzorcu (ali npr. v primeru anket, deležev). Ali bi rekli, da je razmerje v populaciji 20 samcev in 20 samic na podlagi  vzorca 40 živali uravnoteženo ali v prid kateremu spolu?

> chisq.test(c(20, 20), p = c(0.5, 0.5))

    Chi-squared test for given probabilities

        data:  c(20, 20)

    X-squared = 0, df = 1, p-value = 1

P-vrednost hi-kvadrat testa nam namiguje, da sta v vzorcu 20 samcev in 20 samic enako zastopana. Tudi intuitivno bi tako rekli. Kaj pa 18 proti 22 v prid samicam?

Hi-kvadrat (𝛘2-kvadrat, angl. chi square, kar izgovorijo “kaj”) test (lahko med drugim) primerja dve števili in ju tehta, če sta si podobni glede na dano hipotezo. V zgornjem primeru sem predpostavljal, da bo razmerje samcev in samic v vzorcu 50:50, metodi “nahranil” podatke in ta mi svetuje, ali je s to metodo ta rezultat glede na značilnosti testa, “čuden”. Če sta si števili relativno podobni glede na dano hipotezo, bo poročal, da med njima ni zaznavne razlike*.

Pred kratkim sem se zamislil, ali je spolno razmerje v vzorcih 18 samcev in 33 samic uravnoteženo, ob predpostavki, da v vzorcih pričakujemo razmerje 50:50. Poglejmo kaj pravi test.

Chi-squared test for given probabilities

    data:  c(18, 33)

X-squared = 4.4118, df = 1, p-value = 0.03569

Test nam namiguje, da je manj verjetno, da bi ob pričakovanem razmerju 50:50 zgolj po naključju bolj težko prišlo do videnega rezultata. Do tega je prišlo zaradi najmanj ene od treh stvari:

  • zgolj po naključju, tudi če je v naravi razmerje 50:50,
  • v naravi razmerje ni 50:50 in je vzorec samo dober odraz stanja v naravi ali
  • vzorec je pristranski (ni bil nabran naključno).

Kako bo to vplivalo na našo odločitev pa je kot v prvem primeru s kosilnicami odvisno od konteksta. Za nekatere namene je tak rezultat lahko dovolj dober, za druge pa nikakor. Zamislimo si, da ste si udarili prst. Če ga pustite, da se pozdravi sam, bo do konca vašega življenja kriv, če pa se odločite za operacijo, pa je verjetnost 1/20 (0.05), da bo operacija za vas smrtna. Ali bi se odločili za operacijo, če je posledica vaše odločitve “le” kriv prst?

Na tviterju je biostatistik Roger D. Peng postavil vprašanje, po koliko metih mu verjamemo, ali ima pristranski ali fer kovanec (H = head/glava, T = tail/številka). Najboljši komentar je postavil Keith Williams, ko je vprašal, kakšna je cena, če se zmotimo. Kot bi rekli ameriški kolegi, “game-set-match”.

twitter_roger

Upam, da sem vas implicitno prepričal, da rezultati niso nikoli čudni, ampak je to stvar naše interpretacije. Odločamo se na podlagi poznavanja pojava in posledic, ki jih naša (ne)odločitev nosi. Statistika nam nam sama po sebi ne odgovori na zastavljeno vprašanje, nam pa pomaga do bolj obveščene odločitve.