Udomačena statistika

Mladi statistiki pišemo blog.

Analiza posredovanosti na več načinov

Komentiraj

Naslovna slika

Slika: Levo, Reuben M. Baron, desno, David A. Kenny

Analiza mediacije oziroma posredovanosti je ena temeljnih, ko je govora o vzročnem sklepanju v statistiki. Označuje situacijo na spodnji sliki, ko v vzročno-posledični zvezi med dvema spremenljivkama, odvisno Y in neodvisno X, posreduje tretja, ki ji pravimo posredovana oziroma mediator in jo označimo z M.

Morda prva, ki sta se resneje lotila problema analize posredovanosti, sta bila ameriška statistika s področja psihologije, Reuben M. Baron in David A. Kenny v znanem prispevku iz leta 1986. V osnovnem smislu sicer v analizi posredovanosti parametre ocenjujemo s pristopi modelov strukturnih enačb.

Ko je govora o posredovanosti, govorimo o neposrednih in posrednih učinkih, znotraj teh pa še o naravnih in organskih neposrednih in posrednih učinkih. Najosnovnejši način za izračun neposrednega in posrednega učinka temelji na sliki zgoraj: neposredni učinek spremenljivke X na Y je enak koeficientu c, posredni pa zmnožku koeficientov a in b. V malce bolj izdelani analizi spodaj sta Baron in Kenny izdelala sistem štirih regresijskih enačb, s pomočjo katerih danes potekajo osnovni postopki pri tovrstnih analizah.

Utrinek s konference

Vir: Newsom, 2012, v Mwandigha, 2014

V zadnjih letih sem sam s sodelavci predstavil tri nadgradnje analize posredovanosti. Najprej, pri študiju literature in iskanju manj znanih raziskovanih metod sem naletel na longitudinalno analizo posredovanosti, ki spominja na zgornjo shemo, vendar so v njej učinki lahko časovno zamaknjeni. To lahko vodi do zelo različnih možnosti in časovnih povezav med neodvisnimi, posredovanimi in odvisnimi spremenljivkami, ki so bežno prikazane na sliki spodaj. Slika je prikaz enega najbolj temeljnih modelov, ko je govora o longitudinalni analizi posredovanosti: križno odloženi panelni model (cross-lagged panel data oz. CLP model). Poleg njega sta izmed modelov longitudinalne analize posredovanosti zelo znana še model krivulje latentne rasti (angl. latent growth curve model) in model latentnih izračunov razlik (angl. latent difference score model).

Sami smo tako s kolegoma s področja ekonomije zgornji pristop uporabili pri študiji vzročnih učinkov prejemanja dolgotrajne oskrbe starejših na njihovo uporabo zdravstvenih storitev z uporabo podatkov SHARE. V tem primeru je posredovana spremenljivka zdravstveno stanje, saj gre pričakovati, da bo prejemanje dolgotrajne oskrbe vplivalo na zdravje starejših, slednje pa naprej na njihovo potrebo po uporabi zdravstvenih storitev. Hkrati pa velja tudi obratno: uporaba zdravstvenih storitev vpliva na zdravje starejših, slednje pa na potrebo po prejemanju dolgotrajne oskrbe. Takšna povratno vzročna shema je prikazana na spodnji sliki.

Utrinek s konference

Vir: Lasten prikaz

Naša lastna rešitev zgornje uganke vzročnega sklepanja je bila preprosta: uporaba longitudinalnih, dinamičnih modelov. Jasno je namreč, da omenjeni učinki ne morejo delovati nazaj v času. Zato je bila analiza z uporabo longitudinalne analize posredovanosti, konkretneje križno odloženih panelnih modelov zelo enostavna rešitev. Z njeno pomočjo smo prišli do pričakovanih učinkov, in sicer da pogostejše prejemanje dolgotrajne oskrbe vpliva na manjšo potrebo po uporabi zdravstvenih storitev, kjer je učinek pogojen s posredovano spremenljivko zdravja. Ker smo imeli na voljo tudi podatke o stroških uporabe zdravstvenih storitev, smo lahko dovolj natančno ocenili prihranke v zdravstvenem sistemu zaradi morebitnih ukrepov na področju dolgotrajne oskrbe starejših, kar je ključna informacija vsem odločevalcem trenutno. Pravkar je pri prof. dr. Jožetu Sambtu in meni pred zagovorom magistrske naloge študent Vasilije Simeunović, ki je naše izračune ponovil, potrdil in nadgradil.

Ker pa modeli longitudinalne analize posredovanosti temeljijo na precej omejujočih predpostavkah o normalnosti porazdelitve vseh vključenih spremenljivk, sva s kolegico doc. dr. Tjašo Bartolj razvila neparametrično in neparametrično Bayesovo (glej tukaj in tukaj) cenilko za križno odložene panelne modele. Pri neparametrični cenilki sva uporabila in nadgradila predhodno literaturo s področja neparametričnega ocenjevanja dinamičnih panelnih modelov (znanih sistemskih cenilk posplošene metode momentov (angl. system GMM) s področja ekonometrije, glej tukaj in tukaj), pri neparametrični Bayesovi pa nadgradila predhodni prispevek Kima in sodelavcev (2019), ki za neparametrično cenilko v longitudinalni analizi posredovanosti uporablja osnovne Dirichletove apriorne procese z vključitvijo Dirichletovih odvisnih procesov, ki se v ta namen zdijo bolj primerni. Prispevek je bil predstavljen na osrednji konferenci Kraljevega statističnega združenja v Belfastu v letu 2019 in je bil pravkar objavljen v zbirki delovnih zvezkih Raziskave o zdravju, procesu staranja in upokojevanju v Evropi (SHARE).

V mesecu septembru pa sem sam predstavil še eno, malce večjo nadgradnjo same analize posredovanosti in sicer za večkratne posredovane spremenljivke in za časovne vrste. Izkaže se, da se osnovna analiza posredovanosti močno zaplete, ko posredovana spremenljivka ni le ena, ampak jih je več (glej tudi tukaj). Tako neposrednih kot posrednih učinkov je v tem primeru cela vrsta. Spodaj je slika, ko so v analizi dve ali tri posredovane spremenljivke, ki pokaže različne možne poti vzročnega vplivanja v tem primeru.

V predstavitvi, ki sem jo imel na konferenci združenja za nelinearno dinamiko in ekonometrijo (SNDE), organizirani s strani Univerze v Zagrebu, sem zgornjo analizo razširil na posredovanost v časovnih vrstah, tako za osnovno situacijo večkratnih posredovanih spremenljivk (ko so slednje osnovne “evklidske” narave), kot tudi v primerih, ko so slednje večnivojske ali celo funkcijske narave (kar pomeni, da nimamo več opravka s številkami pač pa zveznimi funkcijami). Izkaže se, da tovrstno ocenjevanje ne poteka posebej drugače od običajne situacije posredovanosti za multiple posredovane spremenljivke v primeru časovnih vrst, seveda pa mora vključevati posebnosti večnivojskih modelov in modelov za funkcijske podatke.

Analiza posredovanosti je danes eno od področij v vzročnem sklepanju, naglo rastočem področju v statistiki in tistem, ki v samem temelju določa raziskovanje v ekonometriji, ki ga mnogi enačijo z vzročnim sklepanjem na temelju regresijskih modelov. Ponuja mnoge razširitve, soroden pojmu posredovanosti je pojem moderacije, kjer vmesna spremenljivka vpliva neposredno na osnovno vzročno povezavo. Zanimiva je analiza večkratnih odvisnih spremenljivk (angl. multiple outcomes), posebej zanimivo pa je tudi kombiniranje z metodami strojnega učenja, ki se vedno močneje vključujejo v vzročno sklepanje in so trenutno osrednji trend raziskovanja na tem področju.

Avtor: Andrej Srakar

Mathematical statistician, econometrician and cultural economist, based in Ljubljana, Slovenia.

Oddajte komentar

Fill in your details below or click an icon to log in:

WordPress.com Logo

Komentirate prijavljeni s svojim WordPress.com računom. Odjava /  Spremeni )

Google photo

Komentirate prijavljeni s svojim Google računom. Odjava /  Spremeni )

Twitter picture

Komentirate prijavljeni s svojim Twitter računom. Odjava /  Spremeni )

Facebook photo

Komentirate prijavljeni s svojim Facebook računom. Odjava /  Spremeni )

Connecting to %s