Udomačena statistika

Študenti statistike pišemo blog.

Vzročno sklepanje – kratek pregled področja

Komentiraj

Kavzalnost - Naslovna slika

Vir: xkcd

Čeprav lahko znanost definiramo na mnogo načinov, je zagotovo eden njenih temeljev vzročno sklepanje, torej sklepanje o razmerjih med opaženimi pojavi. Iz statistike je dobro znana krilatica “korelacija ne pomeni kavzalnosti”, ki je dejansko eden začetkov, kjer lahko pričnemo našo zgodbo. Verjetno je prav zaradi zmožnosti preučevanja in dokazovanja povezav med pojavi statistika neločljiv del tako rekoč vsakega znanstvenega raziskovanja.

Vendar pa igra vzročno sklepanje posebno vlogo tudi v “teoretski” oz. matematični statistiki, pa tudi ekonometriji (pri slednji bi morda celo lahko dejali, da tvori njen najpomembnejši del). Tu se je dogodila v preteklih desetletjih “manjša” revolucija. Če je Ronald Aylmer Fisher leta 1922 definiral predmet statistike kot “redukcijo podatkov” in če Judea Pearl, verjetno osrednja oseba sedanje “revolucije vzročnega sklepanja” nekje zapiše, da je bilo vse doslej statistično izobraževanje “kavzalofobično” (Pearl, 2016), pa v zadnjem desetletju nastajajo povsem novi prispevki in pogledi glede tega. Na eni strani je prav Pearl v devetdesetih letih preteklega stoletja v statistiko vpeljal strukturne vzročne modele (SCM, glej Pearl 1995; 2000), ki so jih kasneje povzemali mnogi – epidemiologi (Greenland idr., 1999; Greenland in Pearl, 2008), statistiki (Cox in Wermuth, 2004; Lauritzen, 2001) ter družboslovci (Morgan in Winship, 2007), na drugi strani pa je tudi sodobna ekonometrija poplavljena z literaturo o vzročnem sklepanju, morda najbolj znan primer je knjiga “Pretežno nenevarna ekonometrija: priročnik za empirične raziskovalce” avtorjev Joshue Angrista in Jörna-Steffena Pischkeja, ki je na spisku tako rekoč vsakega osnovnega predmetnika sodobne ekonometrije.

Metodologija se tu naglo razvija in oplaja, morda kratko opišimo le nekaj najpomembnejših področij raziskovanja, ki so pomembna tudi zaradi tega, ker o teh temah, kolikor sem sam zasledil, na našem doktorskem študiju statistike dejansko ni prav veliko govora – morda bi bilo zato dobro temu v bodoče nameniti malce več pozornosti.

Angrist in Pischke se v svoji knjigi osredotočata na regresijske modele vzročnosti. Slednji so velikokrat del t.i. analize učinkov ukrepov in politik, o čemer govori knjiga Giovannija Cerullija, ki predstavlja tudi večino običajno uporabljenih regresijskih modelov na tem področju, kot so osnovni modeli regresijske prilagoditve, uporabe izračuna koeficienta nagnjenosti (angl. propensity score) in spajanja (matching), preuteževanje (reweighting) ter dvojno robustne cenilke, pa do bolj kompleksnih, kot so instrumentalne spremenljivke, modeli korekcije pristranskosti izbora (denimo Heckmanov dvostopenjski model), modeli razlike-v-razlikah (angl. difference-in-differences; danes govorimo tudi o novejših modelih sprememb-v-spremembah oz. changes-in-changes), lokalno zamejeni povprečni učinki tretmaja (angl. local average treatment effects oz. LATE) ter modeli regresijske prekinitve oz. nezveznosti (angl. regression discontinuity design). Vsemu temu arzenalu Angrist in Pischke dodajata še modele kvantilnih regresij in modele, ki upoštevajo probleme standardnih napak (za nekaj pregleda nad splošnimi modeli merskih napak v sodobni ekonometriji bralci lahko pogledate v eno zadnjih številk Journal of Econometrics). Posebno in veliko poglavje tu predstavljajo tudi razlike med strukturnimi in reduciranimi (“kavzalnimi”) modeli, o tem (med drugim) lepo spregovori v še svežem prispevku ameriški profesor ekonometrije Arthur Lewbel.

Posebna smer v analizi vzročnosti so modeli strukturnih enačb. Ta termin je sicer nekoliko nejasno opredeljen, tako v statistiki kot ekonometriji, saj zajema med seboj različna koncepta strukturnega modela (kot denimo v strukturnih modelih vektorskih avtoregresij oz. VAR) kot tisto, kar imamo v mislih sami, modele SEM, verjetno najlepše predstavljene v temeljnem čtivu tega področja, monografiji Rexa Kleina, ki je dostopna že v četrti izdaji in pomeni za področje SEM nekaj podobnega kot knjiga Angrista in Pischkeja za ekonometrike. Modeliranje strukturnih enačb izhaja iz področja multivariatne analize in je najpogosteje v praktični uporabi, ko imamo opravka z nemerjenimi (latentnimi) spremenljivkami oz. konstrukti v analizi – čeprav ima možnosti uporabe marsikje in je danes vsesplošno (in vedno bolj pogosto) uporabljena metoda skoraj vsepovsod v znanosti. Na preprost način omogoča modeliranje sočasnih vzročnih razmerij med različnimi vrstami spremenljivk in danes doživlja mnoge posplošitve (kot so t.i. posplošeni SEM modeli, glej npr. tukaj) pa tudi uporabe v bolj »konvencionalni« ekonometriji, kot so uporabe v modeliranju z metodo posplošenih momentov (za več glej tukaj).

Precej pomembna tema v analizi vzročnosti je tudi analiza posrednih učinkov, prek uporabe mediacijskih (posredovanih) in moderatorskih (križanih/interakcijskih) spremenljivk. Vzročni učinek je lahko namreč tako neposreden (ko med dvema spremenljivkama obstaja neposredna in neposredovana “puščica”, torej vzročnost) kot posreden, kjer v učinek vstopi tudi spremenljivka, ki je bodisi “vstavljena” v samo povezavo (mediator) ali pa ima nanjo interakcijski vpliv (moderator). Na to temo je verjetno enega najboljših nedavnih prispevkov prispeval že omenjeni Judea Pearl (najdete ga tukaj). Danes nastaja kar veliko literature na temo analize posredovanosti (mediacije) za časovne in longitudinalne podatke, zlasti slednja velja še za zelo neraziskano temo. Graf vzročne sheme takšne longitudinalne analize posredovanosti najdete na spodnji sliki.

V zadnjih desetletjih je bilo veliko govora o grafičnih modelih vzročnosti, primer tega so t.i. usmerjeni aciklični grafi (angl. directed acyclic graphs oz. DAG), ki tvorijo eno od osrednjih tem t.i. “biblije vzročnosti” avtorjev Morgana in Winshipa (slednji predava tudi na Ekonomski fakulteti v Ljubljani kot gostujoči profesor) iz leta 2007, ki pa je, kolikor vem, ne najdete proste na spletu. V grobem rečeno je metoda DAG zasnovana kot razmišljanje o vstavljanju ali razstavljanju grafičnih vzročnih struktur, pri čemer poskušamo izolirati želeni vzročni učinek. Pri tem se metoda močno navezuje na nekatere druge metode, predvsem regresijske modele in instrumentalne spremenljivke. Primer takšnega “grafa vzročnosti” najdete na spodnji sliki.

Še ena tema je, ob kateri se bomo kratko ustavili: nasprotni scenariji oz. angl. counterfactuals. Ponovno gre za temo, ki je jedro, ko govorimo o sodobnem vzročnem sklepanju. Za kaj v grobem gre? Ko ugotavljamo vzročni učinek nekega “tretmaja” (denimo zdravila v medicini), seveda vedno obstaja nasprotni učinek na nekoga, ki tega tretmaja oz. zdravila ni prejel. Vendar: nekdo lahko v enem poskusu zdravilo samo prejme ali ne prejme. Zato lahko o rezultatu pri drugi, “neobstoječi” možnosti samo statistično sklepamo, ugibamo, dejansko pa do njega ni prišlo. Način, na katerega do takšne možnosti pridemo, je bistvo tega, kar v vzročnem sklepanju označujejo counterfactuals, ki so torej samo jedro tega, za kar pri sodobnem vzročnem sklepanju gre. Poleg že navedene knjige Morgana in Winshipa, ki temelji na tem pristopu, sta dobri gradivi še knjiga Judee Pearla in krajši prispevek Michaela Höflerja (za malce drugačen pristop in boljši pregled pa svetujem še “kontra-prispevek” A. Philipa Dawida in odgovor nanj s strani Judee Pearla).

Za konec omenimo še možnost, ki me samega kot družboslovca po osnovni izobrazbi bega. Vsak sociolog, antropolog ali humanist se bo seveda zgrozil ob preprostosti sklepanja s pomočjo statistične (ali ekonometrične) analize vzročnosti. V kolikor jo želimo uporabiti v družboslovju (tudi ekonomiji) se lahko resno vprašamo, ali je lahko ustrezen opis naših pojavov. Tu se ponujata dva pomisleka. Na eni strani iz sociologije poznamo sistemsko teorijo in sociokibernetiko, da o analizah kompleksnosti in kaosa sploh ne govorimo. Vse navedene teorije (preproste) modele vzročnosti postavijo v povsem novo luč in zasejejo vanje dvom, predvsem v njihovo navidez preprosto, linearno strukturo. Potrebno pa je dodati, da so tu avtorji, kot so Pearl, Rubin, Morgan in Winship, Mackenzie, Barenboim, VanderWeele, pa tudi drugi, v povezavi z metodami strojnega učenja in umetne inteligence, že napravili velike korake naprej. Na drugi strani pa se iz antropologije (pa tudi družboslovja v splošnem) lahko vprašamo o različnih kulturnih in družbenih “posredovanostih” vzročnosti. Vemo, da je še danes eno najvplivnejših del v sociologiji Družbena konstrukcija realnosti Bergerja in Luckmanna, ki ponovno, na drugačen način, postavlja “preprostost” in samoumevnost vzročnega sklepanja pod precejšen vprašaj.

Videli bomo torej, kaj bo prinesel razvoj, ki tu napreduje precej naglo. Upamo pa predvsem, da bo pomenil še kakšen korak naprej tako za razvoj same statistike kot tudi znanstvenega sklepanja in uporabe statistike v znanosti nasploh.

Advertisements

Avtor: Andrej Srakar

Cultural economist and researcher in mathematical statistics and mathematics, based in Ljubljana, Slovenia.

Oddajte komentar

Fill in your details below or click an icon to log in:

WordPress.com Logo

Komentirate prijavljeni s svojim WordPress.com računom. Odjava /  Spremeni )

Google photo

Komentirate prijavljeni s svojim Google računom. Odjava /  Spremeni )

Twitter picture

Komentirate prijavljeni s svojim Twitter računom. Odjava /  Spremeni )

Facebook photo

Komentirate prijavljeni s svojim Facebook računom. Odjava /  Spremeni )

Connecting to %s