Udomačena statistika

Študenti statistike pišemo blog.

Od ABC do VZŽ: Približno Bayesovo računanje in njegove posebnosti

Komentiraj

Naslovna slika

Vir: Youtube

Tokratni zapis bo na temo verjetno ene najaktualnejših tem v sodobni statistiki: metod »sklepanja brez verjetja« (angl. likelihood-free inference), zlasti metod približnega Bayesovega računanja (angl. Approximate Bayesian Computation, ABC).

Predpostavili bomo, da so, zlasti bralcem preteklega zapisa na temo Bayesove statistike, jasne osnove, vse od preprostega Bayesovega izreka, do njegove posplošene oblike, ki se uporablja v resnejši statistiki. Slednja pravi, da je posteriorna porazdelitev sorazmerna produktu apriorne porazdelitve in verjetja. Osnovna logika Bayesovega izreka je nekaj, kar spremlja statistiko že od njenih začetkov.

V praksi se pri uporabi zgornjega »točnega« izračunavanja posteriorne porazdelitve velikokrat pokaže, da slednje ni mogoče natančno izračunati, ker bodisi njene matematične oblike ne moremo zapisati (povedano drugače, nima “zaprte” oblike), bodisi je njen izračun preveč računsko zahteven (kot je tudi sicer velikokrat primer pri problemih Bayesove statistike). V takšnem primeru se je v zadnjih treh desetletjih (prva omemba metod se navadno veže na prispevek Donalda Rubina iz 1984) razvil velik sklop metod, poimenovan sklepanje brez verjetja oziroma likelihood-free inference. Metode, ki so v začetku temeljile na preprostejših algoritmih metode Monte Carlo z uporabo markovskih verig (MCMC), kasneje tudi »širjenju pričakovanj« (angl. expectation propagation, glej Minka 2001) in variacijskih Bayesovih metodah, v ekonometriji pa so našle svoj pandan v metodah posrednega sklepanja (angl. indirect inference, glej npr. tukaj), so danes najpogosteje omenjane v kontekstu približnega Bayesovega računanja (angl. Approximate Bayesian Computation, ABC).

Vendar: od kod ime sklepanje brez verjetja? V sodobni statistiki imamo velikokrat opravka s takoimenovanimi simulatorskimi modeli (angl. simulator-based models), ki so modeli, s katerimi simuliramo obnašanje kompleksnih sistemov, kot so nastajanje galaksij, planetov in ozvezdij v astrofiziki, evolucijsko modeliranje v biologiji, in širjenje bolezni v epidemiologiji. Takšni modeli so sicer priročni, ker lahko modelirajo zelo kompleksno vedenje v sistemih, imajo pa veliko hibo: velikokrat jih ni možno zapisati v zaprti matematični obliki. Posledično tudi funkcija verjetja (L na spodnji sliki) nima zaprte oblike, in jo lahko zapišemo samo v obliki verjetnosti, da simulator generira podatke, ki so blizu pričakovane vrednosti.

Da bi torej lahko statistično sklepanje steklo tudi v takšnih primerih, so se razvile (in se razvijajo) posebne metode, temelječe na algoritmih približnega in “implicitnega” (t.j. brez neposredno zapisane matematične oblike) računanja.

Metode ABC imajo skupno in zelo preprosto logiko, ki v osnovi temelji na precej trivialnem mehanizmu sprejmi-zavrni (accept-reject, gre za soroden mehanizem algoritmu Metropolis-Hastings): iz podane apriorne porazdelitve generiramo želeni parameter, nato izračunamo z njim povezano verjetje, iz njega generiramo posteriorno porazdelitev in preverimo, do katere mere se razlikuje od dejanske porazdelitve podatkov. V kolikor je prileganje dovolj visoko, algoritem zaključimo, sicer ga poženemo v naslednjo iteracijo.

Iz takšne preproste logike lahko konstruiramo mnoge različne algoritme (glej sliko zgoraj), ki se razlikujejo v uporabljenih merah razlik v porazdelitvi (denimo Kullback-Leiblerjeva mera) in marsikaterih drugih značilnostih. Poleg zgoraj opisanih zavrnitvenih metod ABC, so pogosto v uporabi tudi regresijske metode ABC (Beaumont idr., 2002) in zapovrstne Monte Carlo metode ABC (Sisson idr., 2007), ki pa vse uporabljajo zavrnitvene metode kot svojo osnovo.

Pogosto je prisotna tudi navezava na uporabo jeder (angl. kernel, za razlago tega, kaj so jedra, glej tukaj), s katerimi »prebodemo« (angl. perturb) osnovno porazdelitev, najpreprosteje gre to z uporabo konvolucij, torej matematičnega seštevanja porazdelitev (za več glej tukaj). Takšnim metodam potem pravimo metode ABC »s šumom« (angl. noisy). Veliko je odvisnega od primerne določitve osnovne statistike, ki jo uporabimo za primerjavo porazdelitev – tukaj je najpogosteje v uporabi zaporedni iteracijski postopek vključevanja dodatnih statistik v analizo. Metode ABC najdejo mnogo uporab pri analizi različnih statističnih problemov – veliko je razprav, kako rezultate vključiti v kasnejše regresijske analize, pogosto se uporabljajo denimo tudi pri odločanju o izbiri primernega modela za analizo. V zvezi z metodami je znano tudi nasprotovanje Alana Templetona, o čemer lahko več preberete v temle zapisu z bloga ključne figure področja in verjetno trenutne Bayesove statistike nasploh, Christiana Roberta.

Za ilustracijo navedimo konkretne primere uporabe. V prvem, o katerem več lahko preberete v prezentaciji Michaela Gutmanna, gre za modeliranje prenašanja bakterijskih okužb v centrih za nego otrok. Podobno kot prej opisano, tudi tu računskih modelov (in s tem funkcije verjetja) ni možno zapisati v zaprti obliki, je pa možno iz modelske zgradbe simulirati podatke, in s tem osnovo za opisane algoritme. Gutmann na osnovi tega predstavi več primerov simulacij, ki omogočijo računsko učinkovite izračune in dovolj natančne simulacije.

Drug primer je kratko prikazan na spodnji sliki (vir je znani prispevek Katalin Csilléry in sodelavcev). Gre za problem s področja ekologije, natančneje določanja optimalne biodiverzitete (angl. biodiversity number). Problem, ki tu nastane in je lepo viden na spodnji sliki levo, je, da obstajata dve enako verjetni optimalni vrednosti te številke. Izkaže se, da šele ob upoštevanju vnaprejšnje vednosti (filogenetskih razmerij med biološkimi vrstami, živečimi v lokalni skupnosti, ki jo modeliramo) in posledični uporabi metod ABC (spet imamo opravka z zelo kompleksnimi sistemi) izmed obeh vrednosti precej zlahka preberemo tisto, ki je “prava” in prikazana na spodnji sliki desno.

Ob koncu še nekaj osnovne literature s področja. Temelj temu članku sta bila pregledni prispevek Marina in sodelavcev in prezentacija Michaela Gutmanna. Nekakšna biblija področja je nedavno izdan zbornik urednikov Sissona, Fana in Beaumonta. Odličen sklop prosojnic Christiana P. Roberta najdete tukaj (nasploh priporočam kakršno koli Robertovo gradivo, ki ga najdete kar veliko dostopnega na spletu). Še eno monografijo na temo ABC in metodah sklepanja brez verjetja najdete tukaj. V literaturi pa se pogosto priporoča tudi prispevek Katalin Csilléry in sodelavcev.

Naj ob zaključku dveh prispevkov s področja Bayesove statistike dodam še kratek sklep. V Sloveniji se, kolikor vem, še nismo resneje podali v študij možnosti, ki jih Bayesova statistika že zelo dolgo ponuja. Sam sem bolj po naključju prišel v tesnejši stik s temi razmišljanji med obiskovanjem konferenc in dogodkov predvsem na angleškem področju. V prihodnosti pa bi Bayesovo razmišljanje lahko bil eden ključnih vsebinskih obratov, ki bi jih naredili tudi v Sloveniji, tako v statistiki kot ekonometriji – in s tem močno poživili tako matematično kot vsebinsko delo in razmišljanja na obeh področjih pri nas. Bayesova statistika ni “veja statistike”, kot so denimo analiza časovnih vrst, panelnih podatkov ali neparametrične metode, pač pa temeljit obrat v razmišljanju: zato se bo nujno v bodoče jasneje opredeliti do možnosti, ki jih ponuja.

P.S.: Dodajam še čisto nov, svež nabor prosojnic Christiana P. Roberta za njegovo predavanje 28.7. na JSM konferenci v Denverju.

Avtor: Dr. Andrej Srakar

Mathematical statistician and cultural economist, based in Ljubljana, Slovenia.

Oddajte komentar

Fill in your details below or click an icon to log in:

WordPress.com Logo

Komentirate prijavljeni s svojim WordPress.com računom. Odjava /  Spremeni )

Google photo

Komentirate prijavljeni s svojim Google računom. Odjava /  Spremeni )

Twitter picture

Komentirate prijavljeni s svojim Twitter računom. Odjava /  Spremeni )

Facebook photo

Komentirate prijavljeni s svojim Facebook računom. Odjava /  Spremeni )

Connecting to %s