Udomačena statistika

Študenti statistike pišemo blog.

Risanje grafikonov kvantilov v Nesstarju

1 komentar

V zadnji objavi sem podatke Evropske družboslovne raziskave analizirala z vmesnikom Nesstar in jih prikazala na zemljevidu. Tak prikaz je vizualno zanimiv, vendar je omejen le na eno mero srednje vrednosti, v tem primeru povprečje, zanemari pa razpršenost podatkov.

Statistična razpršenost (tudi variabilnost, disperzija ali variacija) govori o tem, koliko so vrednosti različne med seboj, koliko se vrednosti odklanjajo od srednje vrednosti in koliko se od srednje vrednosti razlikujejo. Poznamo različne mere razpršenosti, med drugim tudi kvartilni odklon.

Kvartilni odklon izračunamo na podlagi kvartilov, ki so vrsta kvantilov, to so mejne vrednosti med posameznimi podmnožicami slučajne spremenljivke. Kvantil reda p je vrednost spremenljivke, od katere je n*p vrednosti manjših, ostalih n*(1-p) vrednosti pa je večjih, pri čemer je n velikost vzorca. Kvartili so mejne vrednosti, ki populacijo razdelijo na štiri dele, ki imajo enako število enot:

  • Q1 (p=0,25) je prvi kvartil, ki mu pripada vrednost spremenljivke, od katere je 25% vrednosti nižjih.
  • Q2 (p=0,5) je je drugi kvartil ali mediana (že omenjena med srednjimi vrednostmi), ki populacijo razdeli na dva enaka dela. Od mediane je nižjih 50% vrednosti.
  • Q3 (p=0,75) je tretji kvartil, ki mu pripada vrednost spremenljivke, od katere je 75% vrednosti nižjih.

Pomemben je tudi razpon med prvim in tretjim kvartilom, ki obsega 50% vrednosti in se imenuje kvartilni razmik. Kvartilni odklon izračunamo kot polovico kvartilnega razmika.

Nesstar žal ne izpiše vrednosti različnih kvantilov in kvartilnega odklona, omogoča pa njihovo vizualizacijo. Za grafikone kvantilov sta v slovenščini poznana tudi izraza “okvir z ročaji” ter “škatla z brki” (angl. box-and-whisker plot ali krajše boxplot). Za primer tovrstnega prikaza sem izbrala vprašanje F30 za leto 2012:

Ne glede na število ur, ki jih morate opraviti po pogodbi, ocenite, koliko ur na teden običajno dejansko opravite (ste opravili), vključno s plačanimi ali neplačanimi nadurami. Vpišite število ur.

V spodnji tabeli so predstavljene opisne statistike (mediana, povprečje, najmanjša in največja vrednost, standardni odklon, vsota, velikost vzorca)  za število opravljenih ur tedensko. Podatki so uteženi. Ob kliku na tabelo se odpre Nesstar pregledovalnik, ki ga – po registraciji – lahko uporabljate za različne izpise te in drugih spremenljivk.

F30tabela

ESS6-2012, ed. 2.1 “Ne glede na število ur, ki jih morate opraviti po pogodbi, ocenite, koliko ur na teden običajno dejansko opravite (ste opravili), vključno s plačanimi ali neplačanimi nadurami.”

 

Na podlagi teh podatkov smo nato narisali grafikon kvantilov, kjer so države urejene po velikosti mediane. Črna pika označuje povprečje, črna navpična črta pa mediano. Odebeljeni del (škatla) je na levi strani omejen s prvim kvartilom (25% vrednosti je nižjih) na desni pa s tretjim kvartilom (25% vrednosti je višjih). Ročaji, ki se raztezajo iz škatel (brki), segajo od najmanjše do največje vrednosti, ki je enaka ali manjša od 1,5 kvartilnega razmika. Če so podatki normalno porazdeljeni, se pričakuje, da bo 95% podatkov ležalo znotraj ročajev. Ob kliku na spodnji grafikon, se odpre Nesstar pregledovalnik, vendar se morate registrirati, če ga želite uporabljati.

F30boxplot

ESS6-2012, ed. 2.1 “Ne glede na število ur, ki jih morate opraviti po pogodbi, ocenite, koliko ur na teden običajno dejansko opravite (ste opravili), vključno s plačanimi ali neplačanimi nadurami.”

 

Najnižja mediana, torej najmanj opravljenih delovnih ur, je na Nizozemskem (36,3 ur), Danskem (37,1) in Norveškem (38,2), največ ur pa delajo v Albaniji (49,6 ur), na Kosovu (42,2), na Češkem (42,1) in v Švici (42,1). Polovica vprašanih dela več in polovica manj kot toliko. Države pa se med seboj ne razlikujejo le v srednjih vrednostih, temveč tudi v razpršenosti. Najmanjši kvartilni razmik imata Portugalska in Madžarska, kar pomeni, da je tam najmanj razlik v količini opravljenih ur. Največji kvartilni razmik pa imajo Albanija, Izrael, Nizozemska in Velika Britanija – v teh državah so razlike v številu opravljenih ur največje.

Nesstar je priročno orodje za risanje grafikonov kvantilov za podatke, ki jih hranijo arhivi, predvsem za osnovne uporabnike, ki jim je dovolj je preprost prikaz kvartilov. Uporabniki, ki želimo tovrstne grafikone risati tudi na drugih podatkovjih in/ali želimo več fleksibilnosti in uporabo na drugih pa bomo še naprej uporabljali druga orodja, med drugim R (npr. grafikon kvantilov v objavi o ljubljanskem maratonu) in Microsoft Excel. V Excelu je grafikon kvantilov možno narisati tako brez kot z makroji.

O drugih merah razpršenosti pa več v kateri od prihodnjih objav.

Advertisements

Avtor: Ana Slavec

Doktorica statistike in raziskovalka na Arhivu družboslovnih podatkov na Fakulteti za družbene vede. Je članica upravnega odbora Društva mlada akademija, urednica bloga Udomačena statistika ter sovoditeljica Meta PHoDcasta. Na Twitterju je @aslavec.

One thought on “Risanje grafikonov kvantilov v Nesstarju

  1. Pingback: Številke v marketingu | Udomačena statistika

Oddajte komentar

Fill in your details below or click an icon to log in:

WordPress.com Logo

Komentirate prijavljeni s svojim WordPress.com računom. Odjava / Spremeni )

Twitter picture

Komentirate prijavljeni s svojim Twitter računom. Odjava / Spremeni )

Facebook photo

Komentirate prijavljeni s svojim Facebook računom. Odjava / Spremeni )

Google+ photo

Komentirate prijavljeni s svojim Google+ računom. Odjava / Spremeni )

Connecting to %s