Udomačena statistika

Študenti statistike pišemo blog.

Vzorec ni le modna muha

2 komentarja

Poletje se je poslovilo, prišli so hladnejši dnevi. In, vsaj za večino ženske populacije, to pomeni prevetritev omar in zamenjavo poletnih vzorcev za toplejše in bolj umirjene zimske. Vzorci imajo v modi posebno mesto: za različne priložnosti in postave se priporočajo različni vzorci. Kot je pisala že Ana, imajo vzorci posebno mesto tudi v statistiki – celo tako pomembno, da se jim posveča prav posebna veja statistike – inferenčna statistika.

AtticPatchwork

Tako kot je vzorec blaga kos blaga, s katerim želimo čim bolje predstaviti celotno tkanino, je vzorec v statistiki del populacije, s katerim želimo čim bolje predstaviti celotno populacijo. (Vir slike: Attic24)

Zakaj pravzaprav potrebujemo vzorce v statističnem preučevanju? No, vsekakor ne gre za modno muho. Vsaka raziskava je osnovana na raziskovalnem problemu, s katerim proučujemo neko populacijo – to je naša ciljna populacija. Velikokrat ciljne populacije pri raziskovanju ne moremo zajeti v celoti. Razlogi za to so zelo različni: najpogosteje raziskovalci nimamo na voljo dovolj sredstev, da bi lahko dosegli vse enote v populaciji, velikokrat je tudi časa za izvedbo take raziskave premalo. Včasih pa je narava raziskovalnega problema tudi takšna, da populacija pravzaprav sploh ni dosegljiva – takrat govorimo o t. i. superpopulacijah, ko raziskave dejansko ne moremo izvesti na ciljni populaciji, ker ta še ne obstaja (če preučujemo učinek nekega zdravila, ki ga jemlje nosečnica, na zdravje otroka, ciljne populacije še nimamo). Ciljna populacija je v resnici bolj teoretični konstrukt, je neko idealno območje preučevanja. Dejansko se raziskave izvedejo na opazovanih populacijah, to je na tistih enotah ciljne populacije, ki so v času raziskovanja razpoložljive. Populacija je tako vedno opredeljena stvarno (kaj je enota), časovno (kdaj je enota dosežena) in krajevno (kje je enota dosežena). Če bi nas zanimala politična opredelitev volivcev v Sloveniji, bi bili naša ciljna populacija vsi polnoletni in opravilno sposobni državljani RS. Našo opazovano populacijo pa bi predstavljali tisti volilni upravičenci RS, ki bi bili v času raziskave dejansko v Sloveniji (izvzeti bi bili torej državljani RS, ki bi bili v času raziskave v tujini). Seveda pa populacije niso samo skupine ljudi; pri kontroli kakovosti predstavljajo populacijo izdelki neke tovarne, pri kmetijstvu so lahko denimo posamezne lege vinogradov, enoto lahko predstavljajo tudi dogodki, recimo izpitni roki.

Vemo pa, da doseganje celotne populacije ni le finančno in časovno potratno, ampak v veliko primerih tudi nepotrebno. Z ustreznim vzorčenjem lahko namreč zelo zanesljivo ocenimo dejansko stanje v populaciji. Ključno pa ja, da pri tem, kot seveda pri modnem stiliranju, izberemo oz. ustvarimo pravilne vzorce. V statistiki vzorce ločimo v dve skupini: verjetnostne in neverjetnostne vzorce (angl. probability and nonprobability sampling). Enote v populaciji imajo v naprej znano verjetnost (ki je večja od nič in je lahko enaka za vse enote ali pa se med enotami razlikuje) za vključitev v verjetnostni vzorec, za vključitev v neverjetnostni vzorec pa ni vnaprej znane verjetnosti, niti ta ni nujno večja od nič. Zaradi tega razloga je sklepanje iz vzorca na populacijo mogoče le, če tvorimo verjetnostni vzorec. Vzorec tvorimo na podlagi vzorčnega okvira – to je navodilo, katere enote iz populacije bomo izbirali v vzorec. V praksi se pogosto kombinirajo različni načini vzorčenja.

V obeh skupinah vzorcev poznamo več načinov za izbiro enot, s katerimi dobimo različne vrste vzorcev. Med verjetnostnimi vzorci je najbolj preprost vzorčni okvir enostavnega slučajnega vzorca (angl. simple random sampling), pri katerem imajo vse enote v populaciji enako verjetnost, da bodo izbrane v vzorec. Ta verjetnost znaša enostavno “1 deljeno s številom enot v populaciji”. Pri enostavnem slučajnem vzorcu lahko enote izbiramo s ponavljanjem ali brez. Enostavno slučajno vzorčenje v praksi ni med bolj pogostimi, če pa se uporabi, je način izbiranja običajno z žrebom – iz seznama enot enostavno slepo izberemo ustrezno število enot. Pri izbiri si lahko pomagamo tudi z generiranjem naključnih števil, ki pomenijo zaporedno mesto enote na seznamu.

Druga vrsta verjetnostnih vzorcev so sistematični vzorci (angl. systematic sampling). Pri izbiri enot moramo upoštevati delež vzorca glede na populacijo, na podlagi česar določimo “korak”. Iz urejenega seznama enot nato na naključnem mestu znotraj prvega koraka začnemo izbirati enote v razmaku koraka. Če je korak 5, potem od naključne začetne enote (med 1 in 5) izberemo vsako peto naslednjo enoto, dokler ne dosežemo želene velikosti vzorca.

V praksi so bolj pogosti stratificirani vzorci (angl. stratified sampling). Ti namreč upoštevajo v svoji strukturi raznolikost enot v populaciji, ki je običajno heterogena. Pri stratificiranem vzorčenju heterogeno populacijo najprej razdelimo na homogene podskupine (stratume), nato pa tvorimo enostavne slučajne ali sistematične vzorce znotraj skupin. Če podvzorci odražajo velikost stratuma glede na populacijo, imamo proporcionalni stratificirani vzorec, če pa teh razmerij v vzorcu ne ohranjamo, imamo neproporcionalni stratificirani vzorec. Stratumi so opredeljeni običajno z nekimi relevantnimi, neodvisnimi spremenljivkami: pri ljudeh so to lahko regija bivanja, starostna skupina, izobrazba, poklicni profil in podobno, pri recimo izdelkih nekega podjetja so to lahko: material, cenovni razred, funkcija…

Stratified-sampling-pic

Stratificirano vzorčenje (Vir slike: Mrs Murray’s math site)

Vzorčimo lahko tudi v skupinah (angl. cluster sampling). Pri tem enote v vzorec vključujemo iz skupin, ki jih vnaprej določimo glede na neke lastnosti populacije; skupine so lahko tudi nekateri stratumi. Primeri skupin so lahko denimo mestna okrožja, fakultete, izdelki nekega tipa (sadni jogurti). V vzorec lahko vključimo cele skupine ali pa iz izbranih skupin izbiramo le nekatere enote: recimo iz izbranih šol določene oddelke ali učitelje, izmed jogurtov pakirane v lončkih, gospodinjstva v pritličju izbranih okrožij (v tem primeru govorimo o dvo- ali večstopenjskem vzorčenju (angl. multistage sampling), če iz osnovnih skupin tvorimo še podskupine za vzorčenje). Tako vzorčenje je sicer v primerjavi z enostavnim slučajnim vzorčenjem manj natančno kot stratificirano vzorčenje, vendar je nekoliko enostavneje pripraviti vzorčni okvir in organizirati vzorčenje, zato je v praksi dokaj pogosto.

Verjetnostni vzorci omogočajo izračun bolj ali manj natančnih ocen vrednosti nekih lastnosti v populaciji. Na podlagi deleža nekega odgovora v vzorcu lahko, denimo, ocenimo delež tega istega odgovora v populaciji. Če se, na primer, v verjetnostnem vzorcu 15 % vprašanih opredeli za neko politično stranko, lahko z neko vnaprej določeno gotovostjo ocenimo, da bo tudi med vsemi volivci približno 15 % takih, ki bi izbrali to stranko. Pri dovolj skrbno izbranem in dovolj velikem vzorcu bo ta ocena bolj zanesljiva oziroma bo tveganje za napako manjše. Vendar o tem podrobneje v eni od naslednjih objav.

V uvodu smo omenili tudi neverjetnostne vzorce. To so vzorci, pri katerih nimajo vse enote v populaciji enake verjetnosti (možnosti) za izbor v vzorec, te verjetnosti pa tudi ne moremo natančno določiti. Taki vzorci torej ne omogočajo izračuna natančnih in nepristranskih ocen vrednosti parametrov, kljub temu pa se pogosto uporabljajo, ker so zelo enostavni za pripravo, predvsem pa ekonomični tako po časovni kot po finančni plati. Uporabljajo se predvsem v preliminarnih raziskavah, pogosto tudi v enostavnejših raziskavah trga ter pri kvalitativnih metodah raziskovanja (intervjuji, fokusne skupine, opazovanje idr.).

Najpogostejši med neverjetnostnimi je priložnostni vzorec (angl convenience sample). Enote se vključijo v vzorec, če so navzoče ob priložnosti, ko se izvaja raziskava, recimo avtomobili na izbrani cesti, mimoidoči na ulici, obiskovalci spletne strani. Večina običajnega spletnega anketiranja se izvede na priložnostnih vzorcih. Zaradi zelo subjektivnega načina izbiranja enot taki vzorci nikakor niso primerni za sklepanje o parametrih, lahko pa nudijo dobro podlago za vpogled v nekatere značilnosti populacije, ki lahko služijo kot izhodišča za nadaljnje raziskovanje.

priložnostni

Priložnostno vzorčenje (Vir slike: Pearsonschool.com)

Drugi način je kvotno vzorčnje (angl. quota sampling), kjer vzorčni okvir sestavljajo kvote – določeno število enot z izbranimi lastnostmi. Če bi preučevali avtomobile, bi denimo v kvotni vzorec vključili 6 Renaultov, 3 BMW-je, 1 Volva, 5 Volkswagnov ali pa denimo 15 študentov medicine, 13 študentov gradbeništva, 7 študentov ekonomije, 2 študenta oblikovanja… Kvoto lahko določa tudi več neodvisnih spremenljivk, recimo starost, dohodek in izobrazba, ali pa poklic in kraj bivanja. Kvote do določene mere odpravijo pristranskost (zaradi subjektivne izbire) priložnostnih vzorcev, kljub temu pa ne dajejo zanesljivih ocen parametrov. Kvotno vzorčenje se včasih kombinira z verjetnostnim, predvsem pri večfaznem vzorčenju v skupinah, kjer s kvoto določimo število enot ali število skupin, v nadaljevanju pa vzorčimo verjetnostno.

Tretji način je ekspertno vzorčenje (angl. expert sampling) . Pri pripravi vzorčnega okvira nam v tem primeru pomaga strokovnjak nekega področja, ki izbere “referenčne enote” ali skupine. Tako lahko denimo izkušen tržnik določi nekaj ciljnih skupin potrošnikov za analizo ustreznosti izdelka, strokovnjak za turizem izbere nekaj reprezentativnih destinacij za analizo ponudbe, agronom izbere referenčne nasade za oceno kakovosti pridelka. Sodelovanje ekspertov pri izbiri je koristno posebno takrat, ko imamo opravka z majhnimi vzorci ali ko imamo opravka z “velikimi” enotami, denimo šolami, tovarnami, naselji.

V statistiki sicer ni toliko različnih tipov vzorcev, kot jih je v modi, kljub temu pa je raznolikosti ogromno – vsak vzorec se razlikuje od drugega in nam lahko odkrije neke nove informacije, neke drugačne značilnosti. Več o vzorčenju si lahko preberete v knjigi Vzorčenje v anketah (Kalton, Vehovar 2001). O natančnosti in zanesljivosti teh informacij pa več v kateri od prihodnjih objav.

Advertisements

Avtor: katkakosmrlj

Sem komunikologinja, specialistka managementa v izobraževanju in doktorska študentka družboslovne statistike. Zaposlena sem na Fakulteti za management Univerze na Primorskem, kjer asistiram pri metodoloških predmetih in delam na projektih, povezanih z visokim šolstvom, zagotavljanjem kakovosti izobraževanja in trajnostno potrošnjo. Raziskovalno se ukvarjam tudi z anketno metodologijo.

2 thoughts on “Vzorec ni le modna muha

  1. Pingback: Štiri anketne napake na primeru predreferendumskih anket | Udomačena statistika

  2. Pingback: Vzorčenje v dobi masivnih podatkov | Udomačena statistika

Oddajte komentar

Fill in your details below or click an icon to log in:

WordPress.com Logo

Komentirate prijavljeni s svojim WordPress.com računom. Odjava / Spremeni )

Twitter picture

Komentirate prijavljeni s svojim Twitter računom. Odjava / Spremeni )

Facebook photo

Komentirate prijavljeni s svojim Facebook računom. Odjava / Spremeni )

Google+ photo

Komentirate prijavljeni s svojim Google+ računom. Odjava / Spremeni )

Connecting to %s