Udomačena statistika

Mladi statistiki pišemo blog.

Nov pristop kombinatorne regresije

Komentiraj

V prispevku predstavljam lasten pristop k regresijskemu modeliranju, poskusno predstavljen na lanskoletni konferenci AIMAC v Benetkah in pred predstavitvijo na veliki mednarodni konferenci računske in metodološke statistike CMStatistics, ki bo potekala preko spleta v decembru. Mislim, da predstavlja nekaj, kar danes zelo redko srečamo: povsem nov pristop in ne nadgradnjo obstoječega, nekaj torej, kar odpira velikanske možnosti bodočega raziskovanja, ki jih kratko predstavim spodaj.

Pristop gradi na statističnem pristopu načrtovanja eksperimentov, imenovanem polni faktorski pristop (angl. Full Factorial Design), kjer se enote iz izvornega vzorca kombinirajo med seboj in tvorijo variacije, znane iz matematične kombinatorike. Pristop sta sicer v tem prispevku za pare (dvojice) že raziskovala Patrick J. Howie in Ewa J. Kleczyk, vendar je v njunem primeru šlo le za osnovno zamisel, ki doslej ni doživela niti preverbe asimptotskih značilnosti, pa tudi ne obravnave pristopa, s katerim bi njun panelni regresijski model za pare lahko statistično ocenjevali.

Možnosti, ki jih razširitev takšnega razmišljanja na katero koli grupiranje enot ponuja, sem se zavedel, ko sem razmišljal o metodoloških dopolnilih, ki bi jih moj prispevek s področja ekonomske neenakosti potreboval, če bi ga prijavil na konferenco drugega področja. Razširitev zgornjega razmišljanja je takojšnja: namesto parov lahko povezujemo trojke, četverke, peterke, dejansko katerokoli število kombiniranih enot, ki je seveda manjše ali enako skupnemu številu enot n (čeprav se zdijo možne tudi združene enote, večje od n, v tem primeru bi šlo za variacije s ponavljanjem). Ime pristopa, kombinatorna regresija, sem izbral, ker je v statistiki pojem variance eden temeljnih, prav tako v Bayesovi statistiki poznamo variacijske pristope, in bi ob poimenovanju z “variacijska regresija” lahko prihajalo do napačnih interpretacij, poimenovanje polno-faktorska regresija pa se mi prav tako ni zdelo primerno.

Sliko, kako so videti takšni urejeni, “kombinirani” podatki prilagam spodaj. Podatki so bili obdelani v programskem paketu Stata, najpogosteje v uporabi na področju ekonomije. Na sliki osnovne enote tvori dvanajst slovenskih regij, za vsako so na voljo podatki v letih med 2005 in 2015 (gre torej za panelne podatke). Ko kombiniramo enote, združujemo – na spodnji sliki zaradi enostavnosti prikazujem združevanje za pare – po dve regiji skupaj, pri čemer časovna dimenzija ostane enaka.

Utrinek s konference

Zaslonska slika urejenih podatkov v Stati

Že kombiniranje parov ponuja neštete možnosti, ki so še povsem neraziskane, vsaj kolikor je meni znano. Eno temeljnih vprašanj seveda je, v kakšni obliki so podane odvisna in neodvisne spremenljivke v takšni regresiji. Ena od možnosti, morda najbolj logična, o kateri bom govoril tudi na konferenci CMStatistics in je prikazana tudi na zgornji sliki podatkov: odvisna spremenljivka je delež vrednosti odvisne spremenljivke prve enote v “kombinaciji”, v skupni vsoti vrednosti odvisne spremenljivke vseh enot. Mogoče pa so tudi različne druge možnosti, kjer sestavljamo vrednosti odvisne spremenljivke za kombinacije enot: seštevamo, odštevamo, množimo, delimo, potenciramo, korenimo, jemljemo različne tipe osnovnih ali uteženih sredin, različne tipe razdalj, ki jih uporabljamo denimo v razvrščanju podatkov, kot sta razdalji Mahalanobis in Manhattan, ali sorodne, kot so razdalja Kolmogorova ali celo razdalja Kullback-Leibler – in še to se zdi, da so le nekatere od možnosti na voljo.

Še večja je paleta možnosti neodvisnih spremenljivk. Slednje so lahko v osnovni obliki, denimo takrat, ko je vrednost spremenljivke konstantna in se spreminja le po letih, na primer v večnivojskih modelih. Lahko so tudi v obliki, ko od osnovne vrednosti spremenljivke za prvo enoto v kombinaciji odštejemo denimo povprečje vrednosti za vse ostale, kot je na zgornji sliki spremenljivka bruto domačega proizvoda, gdp. V tem primeru je seveda vrednost takšne spremenljivke zavzame katerokoli realno vrednost. Ponovno so možnosti, ki jih lahko uporabimo skorajda nepregledne: vse vrste razdalj za vse vrste kombiniranj vključenih enot, različne oblike srednjih vrednosti, mer disperzije ali tako rekoč kateregakoli izračunljivega momenta porazdelitve vrednosti te spremenljivke po enotah, deleži, indeksi neenakosti, kot so denimo Ginijev, Mehranov ali Pieschev. Še ena velika možnost, ki se odpira je, da namesto kombinacij le določenega števila enot (denimo parov ali trojk) v analizo vključimo nove enote, torej kombinacije, kjer so nove enote sestavljene iz kombinacij različnega števila prvotnih enot, tako imamo lahko v izmišljenem primeru (denimo za slovenske regije, kot zgoraj) na voljo denimo štiri pare, dve trojki, dve četverki, petorko in šestorko? Ali seveda katerokoli podobno možnost po izbiri. Končna možnost je seveda, ko v analizo vključimo čisto vse pare, trojke, četverke, petorke, pa vse do kombinacije, kjer so vključene prav vse enote, v primeru regij je to dvanajsterka (tudi pri njej pa je, kot tudi sicer velja za variacije, pomemben vrstni red enot in imamo vsaj teoretično v analizo lahko vključene tudi različne dvanajsterke).

Zgornje pokaže še eno veliko pozitivno lastnost pristopa: tudi če osnovni vzorec sestavlja le dvanajst enot (regij) kot zgoraj ali deset decilov kot v primeru spodaj, nam omenjeni način kombiniranja enot omogoči precej večji vzorec in s tem precej lažje ocenjevanje z vidika stopinj prostosti (število enot v novem, kombiniranem vzorcu se lahko izrazi v odvisnosti od funkcije fakultete števila enot osnovnega vzorca).

Namen tega prispevka je predvsem v prikazu osnovne ideje takšnega pristopa. Cenilke, s katerimi lahko ob takšnem pristopu ocenjujemo regresijske koeficiente, se zdi najbolj smiselno ocenjevati z uporabo metod največjega verjetja (angl. maximum likelihood), vendar sledeč pristopu Bradley-Terry.

Kaj pa uporabnost? Tudi tukaj so možnosti velike. Vrnemo se lahko na začetek prispevka – naš novi regresijski pristop se zdi kot po meri za raziskovanje raznolikosti in neenakosti. Mere, ki so uporabljene za izračun odvisnih in neodvisnih spremenljivk namreč merijo točno to: raznolikost ali neenakost med enotami, ki so vključene v posamezno kombinacijo. Razlika med obema je v tem, da gre pri neenakosti za urejene osnovne vrednosti spremenljivk, tako lahko preučujemo dohodkovno ali plačno neenakost, ne moremo pa “rasne” neenakosti, vsaj iz osnovne spremenljivke rase – in ne denimo dohodka ali izobrazbe. Tudi oblika regresijskih koeficientov, pa tudi odvisnih spremenljivk je povezana z merjenjem neenakosti in raznolikosti, kot sem opisal že zgoraj, najsi gre za razdalje, indekse neenakosti, srednje vrednosti in momente porazdelitev nasploh, in podobne.

Tako sem v manjši aplikaciji, ki jo prikazujem na spodnji sliki, iz podatkov Raziskave o zdravju, procesu staranja in upokojevanju v Evropi (SHARE) konstruiral manjši nabor podatkov, kjer sem kombiniral trojke, kot odvisno spremenljivko pa vzel izdatke iz žepa starostnikov za zdravila ter izračunal decile porazdelitve, ki tvorijo osnovne enote v analizi – ker jih je deset, je torej zelo lahko izračunati skupno število trojk, ki jih lahko tvorimo: 120 (ker sem v analizo vključil dva valova raziskave, je bilo skupno število enot 240). Odvisna spremenljivka je torej razlika med povprečno vrednostjo izdatkov iz žepa za zdravstvo v decilu, ki predstavlja prvo enoto v trojki, od povprečja (povprečja) vrednosti te spremenljivke pri ostalih dveh enotah. Na enak način sem tvoril neodvisne spremenljivke, kjer sem vzel spremenljivke spola, starosti, let izobrazbe, števila kroničnih bolezni ter števila različnih vrst zdravil, ki jih starostnik jemlje. Slednja je števna spremenljivka, ki šteje ali starostnik neko zdravilo vzame ali ne in sešteje te vrednosti za vsa zdravila.

Utrinek s konference

Prikaz uporabljenih transformiranih podatkov

Na zadnji, spodnji sliki prikazujem rezultate regresijskega ocenjevanja. Poigral sem se s povratno vzročnostjo – v odvisnost sem postavil tudi število zdravil, ki ji starostnik lahko užije, od njegovih izdatkov iz žepa, zato ima tabela zgornji in spodnji del. Uporabil sem neparametrični pristop k regresijskemu ocenjevanju, ki je bil utemeljen z odstopanji porazdelitve odvisnih spremenljivk od normalne (teh rezultatov zaradi pomanjkanja prostora ne prikazujem).

Iz zgornjega dela regresijske tabele, ki daje bolj smiselne rezultate, vidimo, da na razlike med decili v izdatkih iz žepa vplivajo razlike v spolu, starosti in letih izobrazbe. Obe spremenljivki s področja zdravja, število zdravil in število kroničnih bolezni nista imeli statistično značilnega vpliva. Ti rezultati se zdijo v skladu s pričakovanji.

Utrinek s konference

Lastni izračun v programskem paketu Stata.

Zgornji izračuni samo ponazorijo osnovno delovanje tega pristopa. V analizo bi lahko vključil tudi pare decilov, ali pa njihove četverke, petorke, šestorke, sedmerke, osmerke, deveterke ali deseterke. Ali pa, v skladu z zgornjim, nekakšno (kakršno koli) “gemüšt” oziroma mešanico vseh kombinacij.

Katera so najbolj temeljna odprta vprašanja tega pristopa? Zgornje možnosti je potrebno tudi “ovrednotiti” in zgraditi mere, na osnovi katerih bo možno ocenjevanje, katera kombinacija enot je v določenem primeru smiselna in na osnovi katerega kriterija se odločati glede tega. Treba bo doreči pristop k ocenjevanju takšnih modelov, vendar se tu možnosti, ki jih ponuja zgoraj omenjeni pristop Bradley-Terry zdijo najprimernejše izmed obstoječih. Področje asimptotske analize je tukaj še povsem neraziskano, tudi za pristop s pari, ki sta ga raziskovala že Howie in Kleczykova, kot omenjeno zgoraj.

Vse navedeno predstavlja velik izziv. Zvenelo bo neskromno, vendar iz poznavanja preštevilnih modelov in pristopov lahko povem, da se takšne velikanske prazne lise raziskovanja odprejo le redko. Zanima me, kakšen bo odziv, ko bo model tudi formalno objavljen v znanstveni literaturi, pa tudi predstavljen na drugih konferencah ter ali bo uspel spodbuditi raziskovanje različnih možnosti, ki jih ponuja.

Avtor: Andrej Srakar

Mathematical statistician, econometrician and cultural economist, based in Ljubljana, Slovenia.

Oddajte komentar

Fill in your details below or click an icon to log in:

WordPress.com Logo

Komentirate prijavljeni s svojim WordPress.com računom. Odjava /  Spremeni )

Google photo

Komentirate prijavljeni s svojim Google računom. Odjava /  Spremeni )

Twitter picture

Komentirate prijavljeni s svojim Twitter računom. Odjava /  Spremeni )

Facebook photo

Komentirate prijavljeni s svojim Facebook računom. Odjava /  Spremeni )

Connecting to %s