Udomačena statistika

Študenti statistike pišemo blog.

Pogovor z Janezom Kokošarjem

Komentiraj

janez_kokosar_1600x1024

Vir fotografije: osebni arhiv JK

Že ob prvem pogovoru smo napovedali, da se bomo v rubriki Pogovori poleg z doktorandi in profesorji pogovarjali tudi s praktiki, to je uporabniki statistike iz podjetij, ki statistiko uporabljajo pri svojem poslu. Prvi intervjuvanec v tej kategoriji je biokemik dr. Janez Kokošar, ki je leta 2013 doktoriral s področja genetike, ukvarja pa se s področjem bioinformatike, kjer ga med drugim zanima molekularna evolucija ter analiza genomov. S podjetjem Genialis sodeluje pri razvoju informacijskih rešitev za analizo genomskih podatkov.

Genialis pomaga raziskovalcem s področja ved o življenju (angl. »life sciences«) razumeti njihove podatke, saj se ukvarjajo z obdelavo, vizualizacijami in analizami slednjih. Veliko delajo na področju genetike, kjer ponujajo kar nekaj inovativnih rešitev za lažje delo raziskovalcev. Organizirajo tudi dogodke in izobraževanja, kjer poskušajo povezati znanja raziskovalcev in informatikov.

Za Udomačeno statistiko sem Janezu vprašanja v zvezi z delom v podjetju Genialis preko elektronske pošte zastavil Črt Ahlin.

Katere oz. kakšne podatke najpogosteje analizirate in kaj želite pri tem izvedeti?

Pri svojem delu se najpogosteje srečujem s podatki, pridobljenimi s sekvenciranjem nukleinskih kislin (določanjem zaporedij molekul DNK/RNK). Z razvojem novih tehnologij se je proces določanja zaporedij DNK bistveno pohitril in pocenil, ter s tem postal dostopnejši širši raziskovalni skupnosti. Količina, raznolikost in uporabnost sekvenčnih in drugih genomskih podatkov se je s tem močno povečala. Določanje zaporedij DNK, predvsem pa analiza teh podatkov, je danes eno od osnovnih orodij znotraj različnih področij bioloških raziskav, medicinske diagnostike in biotehnologije.

Katera orodja/programske jezike uporabljate za podporo tega dela?

Poleg razvoja lastne programske opreme namenjene shranjevanju, organizaciji in analizi genomskih podatkov pri svojem delu uporabljamo številna specializirana programska orodja razvita v okviru bioinformatskih raziskav. Pri razvoju programske opreme in izvedbi analiz najpogosteje uporabljamo programska jezika Python in R, ter številne spletne tehnologije (npr. JavaScript), ki omogočajo pripravo orodij za avtomatizirano izvedbo analiz, vizualizacije in interaktivno brskanje po podatkih.

Ali lahko delite z nami kakšen zanimiv (ali koristen, presenetljiv) vpogled, ki ste ga dobili z analizo podatkov?

Analizirali smo mnogo različnih tipov podatkov. Naprimer, iskali smo podobnosti in razlike med različnimi celičnimi skupinami, analizirali smo izraženost genov v okviru različnih eksperimentov in iskali gene, ki so vzročni za neko celično lastnost. Vsaka od teh analiz je ponudila poglobljen vpogled v lastnosti sistemov, ki so bili preučevani. Naš najširši doprinos raziskovalni skupnosti dosedaj pa je prineslo orodje za raziskovanje izraženosti genov pri »socialni« amebi Dictyostelium. Dictyostelium je modelni organizem pogosto uporabljen za preučevanje različnih celičnih procesov pomembnih za delovanje tudi višjih organizmov.

Ali lahko delite z nami kakšno zanimivo vizualizacijo podatkov, ki je še posebej uporabna na vašem področju?

Za zgoščen prikaz večje količine raznolikih genomskih podatkov in povezav med njimi smo v okviru enega od preteklih projektov uporabli orodje Circos.

bf-circos

(Opomba urednika: več o zgornjem tipu grafov si lahko preberete na Genialisovem blogu.)

Kakšen pomen bo imela analiza genomskih podatkov v prihodnosti? Kaj bomo še odkrili v genomskih podatkih?

Genomika je v zadnjih dveh desetletjih precej močno zaznamovala delo raziskovalcev v bioloških znanostih. Raziskave, prej omejene samo na nekaj genov, so lahko postale precej bolj celovite. Naprimer, raziskovalec lahko sedaj izmeri aktivnost vseh genov v neki celici hkrati. Določanje zaporedij celotnih genomov organizmov je prineslo velik napredek pri razvoju novih vsegenomskih eksperimentalnih tehnik. Celoviteje lahko razumemo in raziskujemo različne celične procese, pojasnjeno je bilo marsikatero evolucijsko vprašanje, ter najdeno mnogo genetskih lastnosti, ki imajo vpliv na pojav bolezenskih stanj. Z dostopnostjo vse te množice podatkov se je proces razumevanja kompleksnosti bioloških sistemov šele dobro začel. Prihodnost vsekakor ponuja mnogo priložnosti, da dognanja pridobljena z razvojem genomike pretvorimo v boljše in lepše življenje ljudi.

Kakšno vlogo menite, da bo imela pri tem analiza podatkov oz. statistika (v širšem smislu) v prihodnosti?

Eksperimentalni podatki so zaradi narave bioloških sistemov pogosto nepopolni in polni šuma. Mnogokrat je predrago ali celo nemogoče pridobiti večjo količino vzorcev in/ali meritev. Vse to vzpodbuja razvoj novih metod statističnih analiz. S pojavom novih tipov bioloških podatkov je obstoječe statistične metode pogosto potrebno prilagoditi, da lahko iz podatkov izluščimo kar se da veliko informacij. Pri tem je sodelovanje tistih, ki podatke pridobivajo, in tistih, ki podatke analizirajo, nujno potrebno.

Advertisements

Avtor: Črt Ahlin

Študent statistike na Univerzi v Ljubljani. Ukvarjam se z analizo podatkov povezanih z zdravjem. Če utegnem, tečem, fotografiram. Student of statistics at the University of Ljubljana. Interested in health related wearable devices, personalized medicine, quantified self. Will run, if let loose. @crtahlin

Oddajte komentar

Fill in your details below or click an icon to log in:

WordPress.com Logo

Komentirate prijavljeni s svojim WordPress.com računom. Odjava / Spremeni )

Twitter picture

Komentirate prijavljeni s svojim Twitter računom. Odjava / Spremeni )

Facebook photo

Komentirate prijavljeni s svojim Facebook računom. Odjava / Spremeni )

Google+ photo

Komentirate prijavljeni s svojim Google+ računom. Odjava / Spremeni )

Connecting to %s