Udomačena statistika

Študenti statistike pišemo blog.

Včasih je manj več ali uvod v inferenčno statistiko

5 komentarjev

Kar ne morem verjeti, da že več kot dve leti pišemo blog in se še nismo lotili vzorčenja. Sama sem to temo že večkrat skoraj načela pa sem si vsakič premislila. O tem ne morem pisati, ne da bi prej povedala zgodbo, ki me je navdušila za inferenčno statistiko, tj. sklepanje o lastnostih populacije na podlagi vzorca enot. Zgodbo o anketi, ki je spremenila način, kako se delajo ankete.Prvič sem jo slišala v 2. letniku študija družboslovne informatike, nato pa spet v 1. letniku študija Statistike. Gre za zgodbo o Gallupu.

George H. Gallup (Vir: http://www.thegalluphouse.com)

Leta 1936 sta se na ameriških predsedniških volitvah pomerila demokrat Franklin Roosevelt in republikanec Alf Landon. Med drugimi so rezultate volitev skušali napovedati pri reviji Literary Digest in George Gallup, ki je leto poprej ustanovil podjetje za javnomnenjske raziskave.The Literary Digest je bila v tistem času ena izmed najuglednejših revij. V letih 1916, 1920, 1924, 1928 in 1932 so na podlagi glasovanja preko anketnih dopisnic uspeli napovedati rezultate volitev. Leta 1936 so izvedli največje in najdražje glasovanje do tedaj – po pošti so poslali 10 milijonov dopisnic. Poleg naročnikov revije so vključili še registirirane lastnike avtomobilov, uporabnike telefonov in člane elitnih klubov. Dopisnico je nazaj poslalo 2,4 milijona oseb in na podlagi njihovih odgovorov so napovedali, da bo Landon prejel 57 % glasov, Roosevelt pa 43 %.

V istem času je George Gallup, ki je v vzorec zajel le 50.000 oseb, napovedal, da bo zmagal Roosevelt s 56 % glasov. Zgrešil je le za 6 odstotnih točk – Roosevelt je zmagal z 62% glasov. Še več: Gallup je anketiral tudi podvzorec 3.000 oseb, ki so prejele vprašalnik Literary Digesta, ter izračunal tudi njihovo napoved, s čimer je še dodatno potrdil, da je odveč zapravljati denar za tako obširno anketiranje.

Zakaj je Literary Digest za skoraj 20 odstotnih točk zgrešil napoved in to kljub precej večjemu številu anketiranih? Glavni razlog je bil, da povabljenih 10 milijonov oseb ni dobro predstavljalo populacije. Prišlo je do pristranske izbire vzorca (selection bias). Vzorčenje je proces, ko iz populacije, tj. množice vseh proučevanih elementov (v tem primeru ameriških volivcev), izberemo vzorec, tj. podmnožico populacije, na osnovi katere sklepamo o lastnostih cele populacije. Vzorec revije Literary Digest je zajel pretežno bogatejše – v času recesije si namreč ljudje s skromnejšimi dohodki niso mogli privoščiti naročnine na revijo, še manj pa lastništvo avtomobila ali telefona. Zato ne preseneča, da je bilo v vzorcu več volivcev, ki so bili bolj naklonjeni republikancem. Poleg tega je na anketo odgovorila manj kot četrtina povabljenih k raziskavi. Ljudje, ki odgovarjajo na ankete, se v splošnem razlikujejo od tistih, ki na ankete ne odgovarjajo, zato pride do pristranskosti zaradi neodgovorov (nonresponse bias). O problemu manjkajočih enot smo na blogu že pisali.

Revija Literary Digest se je zaradi zgrešene napovedi kmalu po volitvah znašla v bankrotu. Nauk zgodbe je, da nam večanje vzorca prav nič ne pomaga, če vzorec ni pravilno načrtovan. Slabo izbran velik vzorec je veliko slabši kot dobro izbran majhen vzorec, zato bi bilo za revijo bolje, da bi sredstva usmerila v skrbno načrtovanje vzorca. O tem, kako dobro vzorčiti, pa več v prihodnjih objavah. Tudi velikost ni povsem nepomembna – še vedno je treba upoštevati zakon velikih števil.

Advertisements

Avtor: Ana Slavec

Doktorica statistike in raziskovalka na Arhivu družboslovnih podatkov na Fakulteti za družbene vede. Je članica upravnega odbora Društva mlada akademija, urednica bloga Udomačena statistika ter sovoditeljica Meta PHoDcasta. Na Twitterju je @aslavec.

5 thoughts on “Včasih je manj več ali uvod v inferenčno statistiko

  1. Pingback: Stara družba, nova družba: trendi kvantitativnega raziskovanja s 70. konference AAPOR | Udomačena statistika

  2. Pingback: Moji vtisi s 6. konference ESRA | Udomačena statistika

  3. Pingback: Vzorec ni le modna muha | Udomačena statistika

  4. Pingback: Štiri anketne napake na primeru predreferendumskih anket | Udomačena statistika

  5. Pingback: Vzorčenje v dobi masivnih podatkov | Udomačena statistika

Oddajte komentar

Fill in your details below or click an icon to log in:

WordPress.com Logo

Komentirate prijavljeni s svojim WordPress.com računom. Odjava / Spremeni )

Twitter picture

Komentirate prijavljeni s svojim Twitter računom. Odjava / Spremeni )

Facebook photo

Komentirate prijavljeni s svojim Facebook računom. Odjava / Spremeni )

Google+ photo

Komentirate prijavljeni s svojim Google+ računom. Odjava / Spremeni )

Connecting to %s