Udomačena statistika

Mladi statistiki pišemo blog.

O modelih več indikatorjev in več vzrokov: zgodovina, delovanje in uporabnost

Komentiraj

Modeli več indikatorjev in več vzrokov (ang. Multiple Indicators and Multiple Causes oziroma z okrajšavo MIMIC) se nahajajo na meji med ekonomsko statistiko in ekonometrijo. Čeprav so jih razvili pomembni avtorji iz zgodovine ekonometrije, kot sta Arnold Zellner in Dennis J. Aigner, ter o njih razpravljali ekonometriki kot Gary Chamberlain, pa se danes le še izjemoma uspejo prebiti na vodilne ekonometrične konference. V prispevku kratko predstavljam njihovo matematično strukturo in delovanje ter možnosti uporabe.

Levo: Arthur Goldberger. Desno: Karl G. Jöreskog.

Pristop MIMIC v temelju izhaja iz modeliranja strukturnih enačb, prvič pa je omenjen v prispevku Arnolda Zellnerja iz 1970 in prispevku Arthurja Goldbergerja iz 1972. Osnovna slika zgradbe pristopa je na spodnji sliki – ocenjuje se nemerjena (t.j. latentna) količina na sredini slike, v odvisnosti od njenih predpostavljenih vzrokov (na levi) in indikatorjev (na desni strani slike). Kadarkoli želimo torej oceniti vrednosti neke spremenljivke, katere vrednosti ne poznamo, poznamo pa (merjene) dejavnike, ki nanjo vplivajo (vzroki) in ki jih sama povzroča (indikatorji), lahko uporabimo pristop MIMIC.

Karl Gustav Jöreskog in Arthur Goldberger sta v znanem članku iz leta 1975 objavljenem v reviji ameriškega statističnega združenja (Journal of American Statistical Association) za ocenjevanje takšnega modela predlagala tri pristope: pristop največjega verjetja, pristop faktorske analize in ekonometrični pristop, pri čemer slednja dva temeljita na skrčeni obliki modela. Težava ocenjevanja je, da osnovna cenilka modela MIMIC po pristopu največjega verjetja nima zaprte oblike, torej oblike, ki bi jo lahko zapisali v neposredni matematični obliki, zato sta Jöreskog in Goldberger predlagala, da se ocenjevanje prevede na pristop posplošene analize kovariančnih struktur, ki ga je nekaj let pred tem v dveh prispevkih razvil sam Jöreskog (1970; 1973). Slednjega je namreč mogoče prevesti v ocenjevanje po metodi največjega verjetja z numerično metodo hitro konvergentnega upadanja naklona (angl. rapidly convergent gradient descent) iz predhodnega prispevka Rogerja Fletcherja in Michaela J.D. Powella (1963).

Slika: Osnovna zgradba modelov MIMIC.

Pristop je bil v letih po nastanku večkrat navajan in uporabljen. V največji meri se je uveljavil pri ocenjevanju obsega skrite ekonomije, ki je po svoji naravi nemerjen, latenten konstrukt in kot takšen primeren na ocenjevanje s pomočjo modelov MIMIC. Med znanimi prispevki z uporabo MIMIC na področju modeliranja skrite ekonomije lahko navedem Thomas, 1992; Schneider, 1994; 1997; 2003; 2005; Lippert in Walker, 1997; Johnson idr., 1998a, 1998b; Tanzi, 1999; Giles, 1999; Mummert in Schneider, 2001; Giles in Tedds, 2002; Giles idr., 2002; Dell’Anno in Schneider, 2003; Buehn in Schneider, 2008; Barbosa idr., 2013; Nchor in Adamec, 2015; Breusch, 2016. Med spremenljivkami, ki v modelih MIMIC navadno določajo obseg sive ekonomije omenimo različne pokazatelje zaposlenosti (denimo števili zaposlenih in samozaposlenih), raven cen (inflacijo), javne prihodke (davke) in izdatke, med indikatorji pa raven narodnega dohodka (BDP) in povezane količine (razpoložljivi dohodek), ter količino denarja v gospodarstvu.

Zaradi potreb modeliranja skrite ekonomije je bilo model potrebno razviti tudi za podatke časovnih vrst. Takšno modeliranje je namreč odvisno od predhodnih vrednosti latentne in drugih spremenljivk in je odvisno od gibanja spremenljivk skozi čas. V prispevku iz leta 1981 so tako Robert Engle (kasnejši Nobelov nagrajenec za ekonomijo za ekonometrične pristope modeliranja volatilnosti v časovnih vrstah) in sodelavci razvili dinamične modele MIMIC oziroma DYMIMIC. Kasneje so modele v znanem prispevku iz leta 1988 nadgradili tudi Dennis Aigner in sodelavci. Ker tovrstno dinamično modeliranje vključuje odvisnosti med vključenimi spremenljivkami časovnih vrst (o čemer smo v preteklih letih že pisali), sta v letu 2008 pristop nadalje nadgradila Andreas Buehn in Friedrich Schneider, ki v dinamičnem modelu MIMIC upoštevata tudi red kointegracije vključenih časovnih spremenljivk, ter ustrezne ekonometrične modele korekcije napak. Svoj model sta poimenovala EMIMIC oziroma MIMIC z vključeno korekcijo napak (angl. error-correction MIMIC). Potrebno je dodati, da njun model ni nikoli doživel objave v znanstveni reviji (dostopen je kot delovni zvezek), po mojem opažanju pa vključuje tudi precej manjših nedoslednosti in napak v pomožnih izračunih.

Model MIMIC je po začetnih objavah naletel tudi na kritike, med njimi je najbolj znana s strani Trevorja Breuscha (znanega denimo po Breusch-Paganovem testu homoskedastičnosti v linearnih regresijskih modelih), ki je opozoril na preveč preprosto vzročno shemo modela, saj ne upošteva križnih povezav med spremenljivkami. V zadnjih letih je tako nastalo nekaj prispevkov, ki v modele MIMIC vključujejo razmerja posredovanosti in moderacije (npr. Fan, 2015, Cheng idr., 2016). Nekaj je bilo tudi poskusov uporabe Bayesovih pristopov pri ocenjevanju modelov MIMIC, denimo Bayesov večnivojski MIMIC model Luka Bruyneela in sodelavcev. Carmen Tekwe in sodelavci so modelu MIMIC prvi dodali instrumentalne spremenljivke v namen popravka v primeru merskih napak (angl. measurement error). Sam sem s sodelavci v letu 2020 objavil prispevek, ki modele MIMIC nadgrajuje z instrumentalnimi spremenljivkami, ki temeljijo na posebnih pristopih dvostopenjskih regresij, razvitih za modele strukturnih enačb (Bollenov pristop iz leta 1996 za presečne podatke ter Czirakyjev pristop posplošenih instrumentalnih spremenljivk za dinamične modele strukturnih enačb – slednji je bil leta 2004 izvorno objavljen prav v slovenski reviji Metodološki zvezki).

Zaenkrat manjka matematičnih pristopov, ki bi prinesli trdnejše ugotovitve o značilnostih ocenjevanja in sklepanja s pomočjo takšnih modelov. Med možnostmi, ki jih pristop ponuja, je zanimiva gotovo tudi modeliranje dejanskega števila epidemioloških okužb v razmerju do uradno poročanega, ki je pristrano zaradi problemov vzorčenja. Pristop lahko uporabimo kadarkoli naletimo na latenten, nemerjen konstrukt, ki ga lahko postavimo v jasna vzročna razmerja do predpostavljenih vzrokov in posledic merjenih v opaženih spremenljivkah.

Spodaj dodajam še manjši primer uporabe. S sodelavko Marileno Vecco sva v letu 2018 v visoko rangirani reviji Journal of Cultural Heritage objavila prispevek, kjer sva s pomočjo različice metode MIMIC, ki smo že v tistih letih razvijali sami, izračunala indeks ogroženosti kulturne dediščine zaradi vojn na bližnjem Vzhodu. Ker je pojem trajnosti kulturne dediščine težko opredeliti in meriti sva uporabila omenjeno metodo (indikatorje in vzroke sva vključila glede na temeljno tipologijo področja). V članku sva potrdila povezanost med izračunanim indeksom ogroženosti kulturne dediščine in splošnim sestavljenim indikatorjem, ki meri ogroženost zaradi vojn.

Slika: Povprečne vrednosti indeksa ogroženosti kulturne dediščine v svetovnih regijah. Vir: Vecco in Srakar.
Slika: Vrednosti indeksa ogroženosti kulturne dediščine v državah bližnjega Vzhoda. Vir: Vecco in Srakar.

V prispevku sem prikazal pristop, ki je zadnja leta redkeje v uporabi. Eden od razlogov so tudi kritike, ki sem jih omenil. Še vedno velja za enega osnovnih pristopov ocenjevanja sive ekonomije, o čemer je v svoji doktorski tezi denimo pisal Bojan Nastav. Zdi pa se, da pristopu predvsem manjka matematičnih ugotovitev – zaenkrat ne vemo, kakšno je obnašanje cenilk MIMIC (ali in pod kakšnimi pogoji so te konsistentne, ali se v limiti porazdeljujejo normalno ter ali so učinkovite). Manjkajo tudi mnogi statistični pristopi, kot so ocenjevanje z Bayesovimi metodami, kompleksnejše vzročne sheme, kompozitni modeli strukturnih enačb in kompleksnejši grafični vzročni modeli, MIMIC za pristop možnih izidov, ali celo pristopi strojnega učenja za modele MIMIC zaenkrat še niso bili ustrezno razviti. Ker je pristop zanimiv tako metodološko kot v smislu uporabe, upam, da se to spremeni v prihodnje.

Avtor: Andrej Srakar

Mathematician, statistician, econometrician and cultural economist, based in Ljubljana, Slovenia.

Oddajte komentar

Fill in your details below or click an icon to log in:

WordPress.com Logo

Komentirate prijavljeni s svojim WordPress.com računom. Odjava /  Spremeni )

Twitter picture

Komentirate prijavljeni s svojim Twitter računom. Odjava /  Spremeni )

Facebook photo

Komentirate prijavljeni s svojim Facebook računom. Odjava /  Spremeni )

Connecting to %s