Udomačena statistika

Študenti statistike pišemo blog.

Barčica po valovih plava – o waveletih in neparametrični statistiki

Komentiraj

Neparametrična statistika je veliko področje statistike, ki se zelo hitro razvija. Za razliko od običajnih metod neparametrične ne zahtevajo nekaterih predpostavk, denimo takih, ki so povezane s porazdelitvijo izbranih statistik. Najpogostejši problemi, ki jih rešujemo s tovrstnimi metodami so ocenjevanje porazdelitvene funkcije, ocenjevanje osnovnih statistik, kot je denimo povprečje, ocenjevanje verjetnostne gostote in določanje krivulj, ki se najbolje prilegajo podatkom. Odprto dostopna monografija, kjer je področje dobro predstavljeno je Wassermanova All of Nonparametric Statistics. Krovna organizacija področja je ISNPS – International Society for Nonparametric Statistics, ki organizira redne konference, naslednja bo potekala leta 2020 na Cipru.

Sam sem bil pred letom dni sprejet na njihovo konferenco v Salernu s prispevkom o uporabi »valovanj« (angl. wavelets) v regresijski analizi mešanic in s tem prišel v malce tesnejši stik s področjem, ki ga od tedaj ohranjam. V tem zapisu zato predstavljam omenjeno posebno obliko neparametričnih funkcij – valovanja oz. wavelets, ki dobivajo vedno več pozornosti in tudi uporab v sodobnih teoretskih in empiričnih analizah.

V temelju bi lahko velik del neparametrične statistike poimenovali tudi »glajenje«, saj skuša najti čim primernejše funkcije za prileganje podatkom, ki nimajo običajnih linearnih ali preprostejših funkcijskih oblik. Tako je zelo znana uporaba kernelnih in lokalno polinomskih funkcij (npr. lokalno konstantna, velikokrat povezana z znano Nadaraya-Watson cenilko ali lokalno linearna).

Nekoliko drugačna oblika so t.i. lokalne prilagoditvene cenilke, med katere sodijo tudi valovanja. Pri slednjih gre za nekakšne trigonometrične (“sinusne”) funkcije, ki so v obliki valovanj oz. nihanj. S prilagoditvami koeficientov in števila ocenjenih členov, ki tvorijo osnovni zapis valovanja (spodaj, funkcije phi so očetna, funkcije psi pa materna valovanja) lahko ustvarimo primerno prileganje podatkom. Očetna valovanja določajo položaj funkcije, materna pa njeno obliko.

Bistvo metode valovanj je torej ocena valovalne/sinusne funkcije, ki se bo čim bolj prilegala podatkom. V ta namen osnovno funkcijo razdelimo na dva večja že prej omenjena dela: očetna (father, tudi scaling) in materna (mother) valovanja in posebej ocenjujemo koeficiente pri obeh. Tako očetna kot materna valovanja tvorijo ortonormirano osnovo (sestavljeno iz baznih vektorjev, ki so paroma pravokotni in enotski), ki se velikokrat uporablja za preslikavo v prostore višjega reda, kot so prostori Besova in Triebela, zlasti prvi so močno povezani s kompleksnejšimi analizami valovanj.

V zgodovini statistike se razvoj valovanj povezuje z imenom matematika Josepha Fourierja, še bolj pa Paula Levyja, Davida Marra, Guida Weissa, Ronalda R. Coifmana in Stephanea Mallata. Danes obstaja vrsta različnih oblik takšnih valovanj, podobno kot statistične porazdelitve jih lahko delimo v zvezna in diskretna valovanja. Le nekateri najbolj znani primeri so Haarovo, Mathieujevo, Legendrovo, symmlet, coiflet in Daubechiesjevo valovanje med diskretnimi ter beta, hermitsko, Poissonovo in Shannovo valovanje med zveznimi. Nekatera od njih so prikazana na spodnji sliki (Step funkcija denimo ustreza Haarovemu valovanju).

Kje se takšna oblika prilagoditvenih funkcij uporablja? Najprej, pri analizi časovnih vrst. Spodaj je primer uporabe analize valovanj pri napovedovanju potresov, na levi sliki je prikazano osnovno gibanje, na desni je prilagoditev z uporabo funkcije valovanja, ki je očiščena številnih nihanj in odstopanj v podatkih.

Drug takšen primer je analiza slik – z uporabo metode valovanja lahko zelo učinkovito razgradimo sliko na njene sestavne dele, podobno, kot se včasih to analizira z metodo glavnih komponent. V analiz na spodnji sliki je bila metoda valovanja uporabljena za razgradnjo slike ženske najprej na dve komponenti, nato pa še naprej na štiri (kasneje bi lahko takšno razgradnjo nadaljevali še naprej – na osem, šestnajst, itd.).

Tovrstnih metod je na bogatem področju neparametrične statistike še kar precej – verjetno se v enem od naslednjih prispevkov tako posvetimo različnim metodam z uporabo kernelov. Ob koncu dodajmo še nekaj dobrih preglednih besedil o metodah valovanja: odlična pregledna prispevka Anestisa Antoniadisa, osnovni in posodobljeni; besedilo Piotra Fryzlewicza; kratek “tečaj” Pedra A. Morettina; besedilo Abramovicha in kolegov; ter uvod v valovanja Amare Graps.

Avtor: Dr. Andrej Srakar

Mathematical statistician and cultural economist, based in Ljubljana, Slovenia.

Oddajte komentar

Fill in your details below or click an icon to log in:

WordPress.com Logo

Komentirate prijavljeni s svojim WordPress.com računom. Odjava /  Spremeni )

Google photo

Komentirate prijavljeni s svojim Google računom. Odjava /  Spremeni )

Twitter picture

Komentirate prijavljeni s svojim Twitter računom. Odjava /  Spremeni )

Facebook photo

Komentirate prijavljeni s svojim Facebook računom. Odjava /  Spremeni )

Connecting to %s