Udomačena statistika

Študenti statistike pišemo blog.

Zakaj še vedno nismo vsi Bayesijanci? O osnovah Bayesove statistike

Komentiraj

Naslovna slika

Vir: ISBA

A Bayesian is one who, vaguely expecting a horse, and catching a glimpse of a donkey, strongly believes he has seen a mule” (Stephen Senn)

Prispevek je uvod, za katerega so me prosili kolegi souredniki, in napoveduje prispevek o sodobnejši temi Bayesove statistike, približnem Bayesovem računanju (Approximate Bayesian Computation, ABC). Ker je Bayesova statistika pri nas še dokaj slabo prepoznavna, če gre sklepati iz uporab v statističnih analizah (kolikor vem, se s tem področjem pri nas malce podrobneje ukvarja asist. dr. Aleš Toman z Ekonomske fakultete, katerega gradiva so bila tudi osnova temu zapisu), je dobrodošlo predstaviti nekaj osnovnih pojmov.

Bayesova statistika, morda bolje poimenovana probabilistična oziroma verjetnostna statistika, je z nami vse od začetkov razmišljanj o statistiki. Splošno se šteje, da je bil neke vrste Bayesijanec že francoski matematik Laplace, ko je razmišljal o verjetnosti. Povedano preprosto, je Bayesijanec nekdo, ki pri reševanju statističnega problema razmišlja o vnaprejšnjih predpostavkah in (vnaprejšnji) verjetnosti nekega pojava. Iz dejanskih podatkov in ob upoštevanju takšne apriorne verjetnosti (Bayesijanci temu pravijo “prior”) nato izračuna končno, posteriorno verjetnost in na njeni osnovi sprejme odločitev.

Matematične temelje takšnega sklepanja gre iskati v Bayesovem izreku (Thomas Bayes je bil angleški prezbiterijanski duhovnik, statistik, matematik in filozof iz 18. stoletja), ki nam iz verjetnosti, da se je dogodil dogodek A, pomaga izračunati pogojno verjetnost naslednjega, z njim povezanega dogodka. Preprosta formula Bayesovega izreka je zapisana spodaj.

Morda najlažja razlaga tovrstne logike je skozi dvostopenjske poskuse. V prvi stopnji izberemo žogico iz prve posode, pri čemer je možno več izidov z različnimi verjetnostmi – različnimi za rdečo in črno žogico iz leve posode spodaj. To poimenujemo z veliko črko H. Dogodek A pa je verjetnost, da smo denimo iz druge posode izvlekli rdečo kroglico, pod predpostavko, da vemo za izid vlečenja kroglic iz prve posode.

Zgornja formula nam sedaj omogoča povezavo obeh stopenj poskusa, vnaprejšnje (prior) in kasnejše (posterior). Prenos na resnejše izračune v statistiki, z uporabo pogojnih porazdelitev je takojšnja in prikazana na sliki spodaj: na temelju vnaprejšnjih pričakovanj določimo apriorno, pričakovano porazdelitev nekega statističnega parametra f(θ), nato izračunamo matematično pričakovanje/verjetje (angl. likelihood) opaženih podatkov x glede na podano vrednost parametra θ, ki ga označimo z f(x|θ) (gre za običajno funkcijo verjetja iz statistike), ter iz spodnje formule izračunamo posteriorno porazdelitev parametra glede na opažene podatke x, ki jo označimo z f(θ|x). Ker je v imenovalcu ulomka izraz f(x), ki ni odvisen od parametra θ, ga lahko v izračunu upoštevamo kot konstanto in pišemo, da je posteriorna porazdelitev sorazmerna produktu apriorne porazdelitve in matematičnega verjetja.

Zgornji izraz lahko uporabimo, kadarkoli je znana ali določena apriorna porazdelitev nekega parametra, in iz njega izračunamo posteriorno. V tem leži temelj izračunov Bayesove statistike, žal pa se izkaže, da je v veliko primerih tovrstno računanje lahko zelo zamudno in računsko zahtevno, velikokrat do te mere, da je običajen izračun posteriorne porazdelitve celo nemogoč, včasih, ker ga tudi matematično sploh ni možno zapisati (matematiki bi temu dejali, da nima zaprte oblike).

Za končno ilustracijo poglejmo še zelo preprost primer. Denimo, da mečemo kovanec. Vemo, da ima poskus več metov poštenega kovanca binomsko porazdelitev, s parametroma n (število poskusov) in p (verjetnost, da pade “glava”, ki pri poštenem kovancu seveda znaša 0.5). Denimo, da je pri desetih metih padlo točno sedem glav.

Iz osnovne formule za funkcijo verjetnosti binomske porazdelitve (ki jo najdete denimo tukaj), lahko zapišemo spodnjo funkcijo verjetja (znak pred zadnjim izrazom, podoben znaku za neskončnost, pomeni, da je izraz sorazmeren temu, kar mu sledi), prikazana je tudi na sliki pod njo:

Zelo običajno je, da se pri binomskih porazdelitvah predpostavlja beta apriorna porazdelitev (o tem več denimo tukaj in tukaj). Ker predpostavljamo, da je kovanec pošten, mora biti tudi takšna predpostavljena porazdelitev simetrična, denimo, da izberemo, da sta oba parametra takšne porazdelitve enaka 4. Naša apriorna beta porazdelitev je torej videti takole (alfa in beta sta enaka 4):

Končna, izračunana posteriorna porazdelitev, kjer smo upoštevali vse, kar vemo, pa je torej videti takole (sorazmerna je produktu verjetja in apriorne porazdelitve, obeh izračunanih zgoraj):

Če bi to prikazali na sliki, bi dobili nekaj takšnega:


Iz zgornje slike vidimo, da posteriorna porazdelitev močno odstopa od pričakovanj, torej od apriorne, in ima tudi srednjo vrednost precej oddaljeno od ½, ki bi jo pričakovali. To je posledica izbranih parametrov za prior, torej alfe in bete, ki smo ju postavili oba na 4. V kolikor izberemo boljši vrednosti 60, dobimo končni rezultat, ki je precej bližje temu, kar pričakujemo, da bi morali dobiti, in se zdi, da že kar ustreza dejanskosti.


Naj tu sklenemo. Kot opažajo mnogi, je Bayesova statistika po osnovni logiki bistveno bližje običajnemu razmišljanju o verjetnosti pojavov, kjer moramo upoštevati vso vnaprejšnjo vednost. V sedanjem času, ko Bayesova logika ponovno pridobiva na pomenu in močneje vstopa na področja, kjer doslej ni bila prisotna (kot je denimo ekonometrija), se velja vprašati, zakaj ni bilo tako že doslej. Naj torej za zaključek dodam znani članek Bradleyja Efrona, lanskoletnega nagrajenca ISI, ki vključuje tudi razpravo mnogih znanih statistikov in prikaže različne poglede na to, do katere mere lahko pričakujemo, da bodo v bodoče statistika in z njo povezana področja še močneje krenili v smeri Bayesijanstva, kot so sicer mnogi napovedovali (in pričakovali) že pred desetletji.

Avtor: Andrej Srakar

Mathematical statistician and cultural economist, based in Ljubljana, Slovenia.

Oddajte komentar

Fill in your details below or click an icon to log in:

WordPress.com Logo

Komentirate prijavljeni s svojim WordPress.com računom. Odjava /  Spremeni )

Google photo

Komentirate prijavljeni s svojim Google računom. Odjava /  Spremeni )

Twitter picture

Komentirate prijavljeni s svojim Twitter računom. Odjava /  Spremeni )

Facebook photo

Komentirate prijavljeni s svojim Facebook računom. Odjava /  Spremeni )

Connecting to %s