V času pandemije COVID-19 so v statistiki veliko pozornosti dobile metode vzročnega sklepanja, posebej v povezavi s strojnim učenjem, Bayesovo statistiko in ekonometrijo. Na več konferencah sem predstavil svojo nadgraditev splošno uporabljenega Bayesovega priorja za vzročno sklepanje, priorja BART (Bayesian additive regression trees oziroma Bayesova aditivna regresijska drevesa), ki uporablja splošni BART pristop, kjer je za slučajne napake uporabljen prior mešanic Pitman-Yor.

Slika: Shema regresijskega pristopa vsote dreves, vir: Tan in Roy, 2019.
Pristop Bayesovih aditivnih regresijskih dreves oziroma BART so v prispevku objavljenem v reviji The Annals of Applied Statistics razvili Chipman in soavtorji (2010). Pristop je sestavljen iz dveh večjih delov, nadgradnje drevesnega regresijskega pristopa in regularizacijskega Bayesovega priorja zanj, oba podrobneje opišemo spodaj. Pristop je doživel veliko uporab v regresijskih in vzročnih modelih, v zadnjih letih pa nastajajo njegove številne nadgradnje. Najbrž najbolj znana so Bayesova vzročna drevesa (angl. Bayesian causal forests oziroma BCF) P. Richarda Hahna in soavtorjev (2020), ki v regresijsko enačbo postavijo še člen izida nagnjenosti (angl. propensity score) in s tem precej pridobijo v prileganju modela. Krajši prispevek o pristopu so avtorji objavili tudi na blogu YoungStatS.
Slika: Hugh A. Chipman, vir: Flickr.
Pristop BART sestavljata dva večja dela. Prvi je regresijski pristop na temelju vsote dreves (angl. sum of trees). V tem pristopu je regresijska funkcija sestavljena iz vsote drevesnih funkcij, ki vsebujejo regresijske prediktorje, odločitvene kriterije v drevesu ter vrednosti prediktorjev na končnih vozliščih drevesa. V drugem delu pristopa BART se za takšen model ustreznim parametrom pripišejo neparametrične apriorne porazdelitve. Posebna pozornost je namenjena apriorni porazdelitvi za odločitvene kriterije v drevesu, ki so sestavljeni iz treh delov – prvega, verjetnosti, da izbrano vozlišče pri določeni globini ni končno; drugega, verjetnostne porazdelitve spremenljivk, na osnovi katerih se drevo cepi na posameznih vozliščih; in tretje, verjetnostne porazdelitve pravil o cepitvi drevesa. Drugi takšen parameter je pričakovana vrednost spremenljivk v končnih vozliščih drevesa, kjer uporabimo normalno apriorno porazdelitev, tretji pa je varianca, kjer je apriorna porazdelitev inverzna hi-kvadrat. Hiperparametri uporabljenih apriornih porazdelitev so določeni tako, da se zmanjša učinek posameznih dreves v modelu, od tod poimenovanje priorja kot “regularizacijskega”.
V dobrem desetletju od nastanka pristopa BART so bile razvite njegove številne nadgradnje. Med bolj znanimi je tako imenovani splošni BART, razvit v prispevku Tana in Roya iz 2019, ki med drugim sprošča predpostavko o normalni porazdelitvi standardnih napak v modelu vsote dreves. Že Tan in Roy sta kot eno možnosti posplošene porazdelitve standardnih napak predlagala apriorne porazdelitve Dirichletovih procesov ali njihovih mešanic. Sam sem v prispevku to nadgradil z mešanico tako imenovanih dvoparametričnih Poisson-Dirichletovih procesov, bolj znano kot mešanico procesov Pitman-Yor (izvorno razvitih v prispevku iz 1992). V Bayesovi neparametrični statistiki veljajo procesi Pitman-Yor za prikladno nadgradnjo Dirichletovih procesov.
Uporabljena je bila osnovna hierarhična oblika zapisa apriorne porazdelitve mešanic Pitman-Yorovih procesov ter preprosta konjugirana beta apriorna porazdelitev za temeljni dodatni parameter takšnih procesov, ki jih loči od Dirichletovih, diskontni parameter d.
Rezultati so pokazali, da je prileganje modela v številnih primerih boljše od osnovnega BART modela in splošnega BART modela z uporabo mešanic Dirichletovih procesov. Prileganje je bilo občasno blizu Bayesovim vzročnim drevesom (BCF). Izziv nadaljnjemu delu je enako apriorno porazdelitev uporabiti tudi v BCF modelu Hahna in soavtorjev, kar pomeni, da bi enak nadgrajeni BART prior uporabili v dveh členih izidnega regresijskega modela, tako osnovnem kot pri izidu nagnjenosti. S tem odpiramo večje poglavje v raziskovanju BART pristopov, saj po naši vednosti posplošene BART apriorne porazdelitve še niso bile uporabljene za BCF modelske specifikacije pristopa.
Pri konstrukciji algoritma za vzorčenje smo se navezali na pristope pomembnostnega vzorčenja (angl. importance sampling), ki so bili v tovrstnih situacijah razviti šele nedavno. V bodoče je mogoča tudi asimptotika pristopa, sledeč nedavnim člankom Veronike Ročkové.
Kot primer uporabe navajam uporabo BART priorjev iz svojega drugega članka pred objavo. Ocenjeval sem razmerje med strogostjo ukrepov držav v času pandemije in prejemanjem dolgotrajne oskrbe pri starejših od 50 let, kjer me je zanimala predvsem raznolikost ocenjenih koeficientov po državah (v teh primerih so Bayesovi in neparametrični Bayesovi pristopi lahko zelo koristni). Na osnovi rezultatov, ki so prikazani na spodnji sliki, sem postavil trodelno tipologijo držav glede na ocenjeno razmerje:
- Skupina 1: Države z manj problemi v prejemanju oskrbe kot pred pandemijo;
- Skupina 2: Države z več problemi kot pred pandemijo zaradi finančnih razlogov;
- Skupina 3: Države z več problemi kot pred pandemijo zaradi zdravja ali sociodemografskih značilnosti.

Slika zgoraj: Učinek strogosti (angl. stringency) ukrepov na prejemanje pomoči od drugih izven gospodinjstva (levo); ter na več težav pri prejemanju domače oskrbe kot pred časom pandemije (desno).
Posebno vprašanje je za kakšne vzročne regresijske modele je pristop primeren. Zaenkrat smo ga sami uporabili v osnovnih situacijah, podobnih linearnim regresijam. Odprte pa so možnosti nadgradnje v zapletenejše vzročne regresijske modele Rubinovega (denimo modeli regresijskih prekinitev) ali Pearlovega/grafičnega tipa, ki so v zadnjem času vedno bolj v ospredju raziskovanj, njihov primer so maksimalno orientirani delno usmerjeni aciklični grafi oziroma MPDAG, več denimo v Perković (2020). S takšnimi nadgradnjami se bom verjetno ukvarjal v svojem nadaljnjem delu.