Tenzorsko dopolnjevanje podatkov kot pristop k analizi podatkov občanske znanosti

04.07.2023 by Andrej Srakar 1 komentar

V preteklih dveh letih sem se veliko ukvarjal z raziskovanjem podatkov občanske znanosti, kar je slovenski izraz za angleški pojem citizen science, ki ga je uvedel akad. prof. dr. Zdravko Mlinar v svojem prispevku v Časopisu za kritiko znanosti, domišljijo in novo antropologijo v letu 2021.

Izraz predstavlja koncept znanstvenoraziskovalnega dela, pri katerem so v raziskave vključeni neprofesionalni raziskovalci, kot so denimo dijaki in študentje, člani različnih društev, predstavniki posameznih družbenih skupin in drugi predstavniki zainteresirane javnosti, ki niso profesionalni raziskovalci. Občanski raziskovalci lahko delujejo v različnih fazah raziskave, kot npr. pri načrtovanju raziskave in pri formulaciji raziskovalnega problema, pri zbiranju in ustvarjanju raziskovalnih podatkov, pri analizi podatkov ter pri interpretaciji rezultatov (Vir: Občanska znanost).

Moje zanimanje za raziskovanje podatkov občanske znanosti izhaja iz aktivnosti v pobudi COVID-19 Sledilnik ter pogovorov ob začetkih mednarodnega projekta YoungStatS, ko sem se pogovarjal tudi s takratno članico uredništva in koordinatorico mlade sekcije francoskega statističnega društva dr. Geneviève Robin. Ona raziskuje pristope matričnega in tenzorskega dopolnjevanja podatkov, ki postajajo standarden del statističnih pristopov k podatkom občanske znanosti. Ko sva razmišljala o morebitnem skupnem prispevku, sva našla skupne točke v pristopih približnega Bayesovega računanja (angl. approximate Bayesian computation oziroma ABC), še bolj pa v raziskovanju naključnih matrik, ki je temeljni del raziskovanja matematične verjetnosti. Takratna zamisel je bila zgraditi nov ABC pristop k metodam tenzorskega dopolnjevanja podatkov, ki so v temelju sestavljeni iz analize naključnih matrik. Od tod do metod analize glavnih komponent (angl. principal component analysis oziroma PCA), ki so bile jedro prispevka, je bil majhen korak, saj so tudi pri PCA naključne matrike osnove metode.

Zgoraj: Shema dopolnjevanja podatkov za matrično in tenzorsko dopolnjevanje. Vir: Doktorska naloga Geneviève Robin.

Prispevek sem kasneje dokončal sam ter ga v krajši obliki objavil v zborniku srečanja mladih Bayesovih statistikov pri založbi Springer. Ker v raziskovanju metod matričnega in tenzorskega dopolnjevanja Bayesovi pristopi večinoma še niso bili razviti, je prispevek naletel na zelo dober odziv v tujih krogih.

Pri tenzorskem dopolnjevanju podatkov gre za vstavljanje (angl. imputation) manjkajočih podatkov v tenzorje, ki so posplošitev matrik na več dimenzij. S tem so logična izbira za analizo podatkov občanske znanosti, kjer spremenljivke, sestavljene iz zbranih podatkov, navadno vsebujejo manjkajoče vrednosti in merske napake, katerih vir je težko natančno določiti. Raziskovanje metod tenzorskega dopolnjevanja podatkov je del takoimenovane visokodimenzionalne statistike (povezuje pa se tudi z metodami strojnega učenja), ustrezni algoritmi na področju pa so predmet trenutnih raziskovanj in v mnogih primerih še niso bili razviti. Zanimiva je nedavna uporaba teh pristopov na področju analize vzročnosti, kjer je eden dveh osrednjih pristopov, Rubinov vzročni model, prav tako v osnovi problem manjkajočih vrednosti.

Moj pristop izhaja iz metode glavnih komponent, r a zvite za tenzorske podatke, s katero lahko večje tenzorje dekomponiramo na posamezne matematične elemente in jim s tem skrčimo dimenzijo, kar je uporabno v statističnem in računskem smislu. Sam sem nadgradil predhodni variacijski Bayesov pristop, kjer sem zaradi dokaj zapletene funkcije verjetja v statistični analizi takšnih podatkov ter njihove visokodimenzionalne narave uporabil pristope brez funkcij verjetja (angl. likelihood-free). Točneje, uporabil sem obliko regresijske prilagoditve za izgradnjo simulacijskega Bayesovega pristopa, ki je lahko približni ali zaporedni (SMC). Moja nadgradnja tega pristopa z drugačnimi merami distanc v Bayesovem algoritmu bo predstavljena kot edini prispevek slovenskih statistikov na letošnjem Evropskem srečanju statistikov (EMS) v Varšavi.

Ob delu na prispevku sem se pričel spraševati o metodah in statističnih problemih podatkov občanske znanosti. Podatki, zbrani s strani takšnih pobud so s statističnih vidikov v veliki meri neraziskano področje, hkrati pa so tovrstne pobude pomembne kot priložnost za povrnitev zaupanja v znanost po pandemiji, zato bi jim statistika kot področje morala nameniti več pozornosti. Ko smo se marca letos v Londonu srečali na prvem srečanju odbora za pripravo diskusijskih prispevkov pri Royal Statistical Society, sem zato kolegom v odboru predlagal temo analize podatkov občanske znanosti za letošnji osrednji poziv združenja. Kolegi v odboru so predlog podprli kot zelo primeren v trenutnem času in ga tudi objavili. Odzivi nanj bodo lahko osvetlili in odgovorili na nekatere odprte teme in vprašanja raziskovanja.

Tudi v slovenskem prostoru so razprave o občanski znanosti živahne. Javnosti je v času pandemije postala znana pobuda COVID-19 Sledilnik, ki je po osnovni naravi pobuda občanske znanosti (v njej sodelujejo prostovoljci). Organiziranih je bilo tudi več simpozijev na to temo, nedavno denimo na SAZU, pojem pa vstopa tudi v dokumente s področja znanosti, predvsem v povezavi s pojmom in pobudami odprte znanosti.

Raziskovanja na področju bo torej potrebno izdelati in razviti in to hitro. Raziskovalci imajo namreč težave z objavami z uporabo takšnih podatkov, saj recenzenti ne vedo, kako jih ocenjevati – o uporabah takšnih podatkov je znanega še veliko premalo in ustrezne statistične korekcije, ki bi jim pomagale, še niso izdelane (kaj šele nadgradnje, kot so Bayesovi pristopi). Upam, da se bo tej temi kmalu namenila ustrezna pozornost.

Avtor: Andrej Srakar

Economist and mathematician, working mainly in probability theory and mathematical analysis. Coordinator of the YoungStatS project (part of YSE). Joint coordinator, Young Section (MSS) of the Slovenian Statistical Society. Committee member, Emerging Applications Section and Discussion Paper Meetings, Royal Statistical Society.