Udomačena statistika

Statistiki pišemo blog.

O učinkih samoizolacije zaradi COVID-19 v Sloveniji

3 komentarji

Analize vzročnih učinkov ukrepov so metodološko področje, ki se nahaja med ekonometrijo in statistiko. Na tem blogu sem že večkrat pisal o področju vzročnega sklepanja v splošnem, pri ocenjevanju učinkov ukrepov pa se je razvilo veliko področje, ki so ga ekonometriki poimenovali metode ocenjevanja programov (angl. program evaluation). Med drugim je v povezavi z njim Nobelovo nagrado v letu 2000 prejel čikaški ekonomist in ekonometrik James Heckman, eden najbolj vplivnih med še živečimi ekonomisti. Področje je močno razvito na zahodu, še posebej v ZDA. V tem prispevku bom o njem spregovoril v povezavi s COVID-19.

Ko se je pandemija COVID-19 v začetku leta 2020 razširila po vsem svetu, je statistično in epidemiološko modeliranje njenega poteka postalo ena osrednjih točk znanstvenega raziskovanja. Novi koronavirus SARS-CoV-2 se je hitro razširil po vsem svetu in močno vplival na vse vidike našega življenja. Eden ključnih razlogov za njegovo hitro širjenje je visoko efektivno reprodukcijsko število R_t, o tem katerem sem pisal v prispevku, nastalem v začetku pandemije, Uvod v modeliranje in statistični vidiki COVID-19, poleg efektivnega pa poznamo tudi osnovno reprodukcijsko število R_0. Vrednost R_t predstavlja povprečno število ljudi, ki jih posameznik okuži v obdobju okužbe, pri čemer t predstavlja čas. Ko je R_t manjši od 1, se pojavnost novih primerov zmanjša, ko pa je R_t večji od 1, narašča, dokler epidemija ne doseže vrhunca; po tem se pojavnost novih primerov začne zmanjševati zaradi (vsaj začasne) čredne imunosti. Sliko gibanja števila primerov in umrlih v času pandemije v Sloveniji vidimo na spodnji sliki iz članka Manevskega in sodelavcev (2020), ki je eno od znanih slovenskih modeliranj COVID-19.

Vir: Manevski idr., 2020

Ocene osnovnega reprodukcijskega števila R_0 za SARS-CoV-2 se glede na način ocenjevanja močno razlikujejo in v povprečju znašajo okrog 3. Tako visoko osnovno reprodukcijsko število vodi do strmega eksponentno rastočega povečanja števila primerov, kar povzroči hitro povečevanje števila ljudi, ki potrebujejo hospitalizacijo in skrb na oddelku za intenzivno nego (ICU). Zaradi omejenih zmogljivosti zdravstvenega sistema lahko to privede do situacije, ko ni mogoče zagotoviti ustrezne oskrbe vsem bolnikom v stiski. Zato je za oblikovalce politik ključnega pomena, da ocenijo R_t, s pomočjo katerega lahko spremljajo širjenje epidemije. Toda za boljše razumevanje epidemioloških značilnosti nas velikokrat zanima tudi ocena nadaljnjih ukrepov, npr. stopnje smrtnosti zaradi okužb (tj. deleža smrtnih primerov med okuženimi posamezniki), deleža asimptomatskih primerov in napovedovanja števila hospitaliziranih bolnikov in bolnikov v ICU.

Zgornje sem se na primeru Sloveniji odločil oceniti s pomočjo modela strukturnih enačb, bolje rečeno analize posredovanosti, o kateri sem tukaj že pisal. Moj osnovni model pri tem dokaj zvesto sledi modelu, izvorno predstavljenem v analizi ekonometrika in matematičnega statistika prof. dr. Victorja Chernozhukova in sodelavcev, najbrž najbolj znani vzročni analizi COVID-19 v dosedanjem teku pandemije.

Vir: Chernozhukov idr., 2020

Model je prikazan na spodnji sliki in vključuje pet dejavnikov. Končna odvisna spremenljivka Y_i,t+l je število pozitivnih primerov na SARS-CoV-2 (v nadaljevanju: število primerov) čez določeno število dni (v našem primeru smo izbrali odlog 10 dni), na katerega vplivajo štirje dejavniki: neposredno nanj vplivajo sprejeti ukrepi za zajezitev pandemije (spremenljivka P_it), pa tudi posredno preko učinka na obnašanje ljudi (spremenljivka B_it). Poleg tega tako na število primerov čez določeno število dni, kot tudi na obnašanje ljudi vpliva število primerov na današnji dan (I_it). Na vse pa vplivajo še drugi dejavniki, ki jim v statistiki navadno rečemo kontrolne spremenljivke (W_it).

Vir: Chernozhukov idr., 2020

V naši analizi sem torej ocenil dve enačbi – posredno, kjer sem ocenil vpliv sprejetih ukrepov in nekaterih kontrolnih spremenljivk na obnašanje ljudi (ki je v naši analizi posredovana spremenljivka), ter končno, kjer sem hkratno ocenil vpliv sprejetih ukrepov ter obnašanja ljudi. Uporabil sem podatke neformalne znanstvene pobude COVID-19 Sledilnik, ki se navajajo kot osrednji vir zanesljivih podatkov o COVID-19, ki sem jih kombiniral s podatki, odprto dostopnimi v podatkovni bazi Si-Stat. Moja analiza je nastala v začetku jeseni 2020, zato sem uporabil podatke na ravni občin za vsak dan od uradnega pričetka pandemije 4. marca 2020 pa do popolne umiritve novih pozitivnih primerov prvega vala v začetku julija 2020. 

Osnovne rezultate analize posredovanosti prikazujem na spodnji sliki. Vidimo, da so bili skupni, pa tudi neposredni učinki zaprtja države na število pozitivnih primerov negativni v povprečni višini 0.06 (skupni) in 0.18 (neposredni) pozitivnih primerov manj v vsaki občini vsak dan od dneva, ko se je pričelo zaprtje države pa do pričetka julija.

Vir: Lastni rezultati.

Ker so bili podatki dostopni po občinah, sem ocenil še en model, tokrat enakega, za analizo posredovanosti, vendar z vključeno korekcijo za grupiranje spremenljivk na ravni občin (večnivojski modeli). Rezultati, prikazani na spodnji sliki, potrdijo negativen učinek zaprtja države na število pozitivnih primerov COVID-19 v skupni povprečni višini 0.05 primera (kar je zelo podobno zgornji oceni) v vsakem dnevu od zaprtja države in v vsaki občini.

Vir: Lastni rezultati.

V kratki nadaljnji analizi, ki je tu ne prikažem, sem ocenjeni učinek razgradil na delež, ki ga prispevajo razlike med občinami v povprečni starosti, dohodku in izobrazbi – pri tem znaša delež, ki ga k učinku prispeva starost prebivalstva okrog 40 %, dohodek okrog 37 %, izobrazba pa okrog 23 %.

Čeprav nastala v začetku jeseni 2020, se moja kratka in metodološko preprosta analiza zdi morda edina javnosti predstavljena v Sloveniji, ki ocenjuje vzročne učinke zaprtja države na osnovne zdravstvene pokazatelje pandemije s pomočjo uveljavljenih metodoloških sklopov metod vzročnega sklepanja (o katerih velja prebrati pregledni prispevek iz leta 2019). Večina slovenskih modeliranj se je doslej osredotočila na neposredno uporabnost za državo, gre verjetno za štiri javnosti znana modeliranja: nadgrajeni oddelčni SEIR model prof. dr. Janeza Žiberta iz Zdravstvene fakultete Univerze v Ljubljani, statistični semi-mehanski model skupine Inštituta za biostatistiko in medicinsko informatiko (IBMI) Medicinske fakultete UL, mrežni model dr. Žige Zaplotnika iz Fakultete za matematiko in fiziko UL, ter model, po naravi podoben oddelčnim modeliranjem, dr. Matjaža Leskovarja iz Inštituta Jožef Stefan.

Poplavi prispevkov navkljub, po mojem mnenju modeliranje COVID-19 tudi v mednarodnem merilu še vedno zaostaja za večino standardov v siceršnji matematični, statistični in ekonometrični literaturi. Izjema so prispevki, ki jih je v svoji posebni izdaji v uredništvu prof. dr. Elieja Tamerja objavil Journal of Econometrics, ki so modeliranje COVID-19 obravnavali tudi z nekoliko bolj poglobljenih in zanimivejših matematičnih vidikov, napovedana pa je tudi posebna številka revije Journal of Nonparametric Statistics. Zagotovo velja omeniti tudi delo nekaterih skupin, kot je italijanska StatGroup-19, ki jo koordinirata prof. dr. Alessio Farcomeni in prof. dr. Fabio Divino, francoska skupina MODCOV-19, ki jo koordinira prof. dr. Jean-Stéphane Dhersin, ter delo angleških raziskovalcev, denimo biostatistične skupine univerze v Cambridgeu. Upam, da bo kaj podobnega (posebne številke, obsežnejše in bolj sistematične znanstvene objave) kmalu objavljeno tudi v splošnejši statistični in matematični literaturi, denimo s področja verjetnosti in verjetnostnih modelov, kjer sicer najdemo nekatere zanimive (vendar redke) modele, med katerimi omenjam delo prof. dr. Amauryja Lamberta in njegove francoske metodološke skupine SMILE.

Avtor: Andrej Srakar

Economist and mathematician, working mainly in probability theory and mathematical analysis. Coordinator of the YoungStatS project (part of YSE). Joint coordinator, Young Section (MSS) of the Slovenian Statistical Society. Committee member, Emerging Applications Section and Discussion Paper Meetings, Royal Statistical Society.

3 thoughts on “O učinkih samoizolacije zaradi COVID-19 v Sloveniji

  1. Andrej, študija, ki jo omenjaš od prof. dr. Victorja Chernozhukova in sodelavcev ni vzročna ampak študija asociacij, saj metode strukturnih enačb ne omogočajo vzročne analize opazovalnih podatkov (čeprav bi si nekateri to želeli) ampak le analizo asociacij. Tukaj je izsek iz njihovega članka, kjer to tudi povedo:

    »From a completely agnostic point of view, our findings uncover predictive effects (association) of observed policies and behavioral changes on future health outcomes, controlling for informational and other confounding variables.«

    Celoten članek je tukaj: http://dspace.mit.edu/handle/1721.1/128951

    Problem strukturnih enačb, ki jih raziskovalci zbrani okoli Pearl-a v zadnjih letih silovito promovirajo ostaja. Gre za težavo, ker ima lahko raziskovalec na rezultate direkten vpliv (lahko postavi model tako, da ustreza njegovim željam glede dobljenih rezultatov) saj je v proces modeliranja z namenom odstranitve ‘selection bias-a’ (slo: pristrane izbire?) vključena tudi spremenljivka izida (ang: outcome variable). Če bi želel narediti študij vzročne analize, ti predlagam, da uporabiš statistične metode, ki so že več kot desetletje v znanstvenih krogih sprejete kot dovršene metode za ocenjevanje vzročnih učinkov oz učinkov programov. Gre za metode tako imenovanega okvira možnih izidov (ang: potential outcomes framework) in Rubinov model vzročnosti (ang: Rubin Causal Model). Te metode omogočajo ocenjevanje vzročnih učinkov tudi z opazovalnimi podatki saj imajo ‘varovalko’, ker je spremenljivka izida (ang.: outcome variable) izključena iz procesa odstranjevanja ‘selection bias-a’.

    Lep pozdrav,
    Ana

  2. Ana zdravo,

    najlepša hvala za ta odziv. Oba mislim, da veva, kako pomemben je za področje statistike (in tudi ekonometrije) ter metode vzročnega sklepanja. In super bi bilo, če debata, ki bi jo v grobem lahko povzeli z Rubin’s Causal Model vs. Judea Pearl najde malo več odmeva tudi v slovenski statistiki. Opazil sem tudi, da Chernozhukov govori tudi o counterfactual structural equation model (CF-SEM), stvari se torej ne zdijo tako črno-bele. Tudi meni pa je zanimivo, kako se je sam (Victor Chernozhukov torej), kot eden iz same vrhuške svetovnih ekonometrikov, tako je že lep čas, odločil za uporabo metod SEM (in torej v liniji DAG). V ekonometriji si tisti, ki tudi tu delujemo, namreč navadno niti ne upamo omeniti, da delamo tudi s temi metodami, ker smo gladko zavrnjeni vsepovsod, velja nekako ekonometrija=potential outcomes pristop.

    Tudi to, da je Chernozhukov uporabil pristop SEM pa pokaže, da tukaj so možne tudi vmesne poti. Sam predvsem mislim, da bi morali razmišljati v tej smeri, se izogniti “profetom” tipa Pearl in najti kakšno bolj “vzdržno” linijo razmišljanja.

    Bilo bi super, da se ta debata nadaljuje (midva sva jo že načenjala v preteklosti) in ko sam najdem malo več časa (divjam naprej k člankom, projektom, konferencam, Mladi sekciji in YoungStatS in vsemu drugemu) se zagotovo še oglasim.

    Vem tudi, da je seminar OCIS pred časom imel ločena intervjuja najprej z Rubinom, potem pa še s Pearlom, tudi tam je verjetno mogoče najti kaj dodatnega, pomembnega za razpravo.

    Najlepša hvala še enkrat za odziv.

  3. Opazil sem tudi, da se zadnje čase denimo govori o causal mediation analysis (ki je različna od analize posredovanosti, mediation analysis, v splošnem), https://arxiv.org/abs/2007.01796. To je Fan Li posebej poudarila v svojem predavanju prejšnji teden na OCIS seminarju. Ali torej vendarle prihaja do manjšega zbližanja obeh nasprotujočih si pristopov?

Komentiraj