Udomačena statistika

Študenti statistike pišemo blog.

Uporaba različnih mer srednje vrednosti na primeru podatkov o brezposelnosti

3 komentarji

V enem izmed prejšnjih prispevkov je bilo predstavljeno, kako pomembno je, da poznamo porazdelitev, preden se odločimo za uporabo aritmetične sredine kot mere srednje vrednosti naših podatkov. V tokratnem prispevku bom govorila o srednjih vrednostih na sploh, s poudarkom na primeru, ki kaže, da je uporaba aritmetične sredine upravičena. Ker je teorijo najbolje predstaviti na konkretnem primeru, sem za potrebe prispevka uporabila podatke o brezposelnosti v Slovenskih občinah za mesec februar 2013. Podatke sem pridobila na strani Zavoda za zaposlovanje RS.

V tabeli so predstavljeni deleži brezposelnih v posamezni kategoriji glede na vse brezposelne v posamezni občini (ne število brezposelnih v posamezni kategorij glede na občino), s ciljem izničenja učinka velikosti občine, ki vpliva na skupno število brezposelnih v posamezni občini in posledično na število brezposelnih v posamezni izbrani kategoriji.

Nekatere bolj ali manj pogosto uporabne / uporabljane mere srednje vrednosti:

1.) Modus – predstavlja vrednost spremenljivke, ki se najpogosteje pojavlja. Modusov je lahko več, če je več vrednosti, ki se pojavljajo enako pogosto. Čeprav ga je mogoče uporabljati tudi na manjših vzorcih, je njegovo ugotavljanje bolj smiselno za obsežne populacije, saj, kot rečeno, iščemo, tisto/tiste vrednosti, ki se najpogosteje uporabljajo. Še posebej je uporaben, če se spremenljivka porazdeljuje simetrično. Slabost modusa je, da ga v primeru porazdelitve z večimi vrhovi ne moremo določiti enoznačno (obstaja več modusov, kar je za raziskovalca informacija, da je bolj smiselno uporabiti Mediano). Modus je mogoče uporabiti tudi za neštevilske spremenljivke (iščemo na primer najpogostejšo barvo las).

2.) Mediana – predstavlja vrednost spremenljivke od katere ima natanko polovica opazovanih enot nižjo vrednost in natanko polovica enot višjo vrednost. Je torej tista vrednost, ki razdeli enote na dva številčno enaka dela. Zanimivo je, da za njeno določitev ne rabimo poznati vseh vrednosti (pozitivna lastnost) in da je neobčutljiva za skrajne/izstopajoče vrednosti vzorca ali populacije (slabost). Še posebej je priporočljiva, če se spremenljivka porazdeljuje asimetrično (ker v takem primeru izračun povprečne vrednosti ni nujno informativen). Mediano imenujemo tudi drugi kvartil.

3.) Aritmetična sredina ali povprečna vrednost – predstavlja težišče vrednosti. Za izračun potrebujemo vse vrednosti spremenljivke. Izračunamo jo kot vsoto vseh vrednosti deljeno s številom opazovanj. Povprečna vrednost je primerna mera srednje vrednosti za spremenljivke, ki so porazdeljene simetrično in približno normalno. Izračunavamo jo za spremenljivke, ki so razmernostne in intervalne. Aritmetična sredina je daleč najbolj priljubljena in pogosto uporabljana mera srednje vrednosti, kljub temu, da ni primerna za izračun na katerihkoli podatkih.

Rekli smo, da morajo biti vrednosti spremenljivke porazdeljene približno normalno, pri tem je še posebej pomembna simetričnost porazdelitve. Poglejmo torej, kaj v naši tabeli govorijo podatki (koeficienta simetričnosti in sploščenosti – več o njiju v kakem izmed naslednjih prispevkov), ki ponujajo nekaj informacij o tem ali je porazdelitev vrednosti izbranih spremenljivk, takšna, da govori v prid uporabi aritmetične sredine ali mogoče raje kake druge mere srednje vrednosti.

Tabela: Mere srednje vrednosti in koeficienta simetričnosti (skewness) in sploščenosti (kurtosis) na primeru podatkov o brezposelnih.

Tabela: Mere srednje vrednosti in koeficienta simetričnosti in sploščenosti na primeru podatkov o brezposelnih.poselnost

Če torej želimo ugotoviti, ali se izbrane spremenljivke porazdeljujejo približno normalno, moramo pogledati vrednosti koeficientov sploščenosti in simetričnosti. V našem primeru nam mera simetrije pove (vidimo, da vrednosti ne presegajo 1), da so štiri izbrane spremenljivke porazdeljene približno simetrično oziroma normalno. Vrednosti pri meri sploščenosti pa govorijo o tem, da je delež dolgotrajno brezposelnih med vsemi brezposelnimi porazdeljen približno normalno (vrednost koeficienta do 0.8), medtem ko so ostale tri spremenljivke porazdeljene nekoliko koničasto (Kurtosis nad 0.8). Za spremenljivko pri kateri vrednosti koeficienta sploščenosti in simetričnosti kažeta, da se vrednosti porazdeljujejo približno normalno (d), zadržkov glede uporabe aritmetične sredine kot mere srednje vrednosti torej ni. Kaj pa za preostale tri spremenljivke? Če smo v dvomih, ali je uporaba povprečne vrednosti za konkretne podatke primerna, (pa tudi sicer) je dobrodošlo, da prikažemo in primerjajmo vrednosti nekaj različnih mer srednjih vrednosti z vrednostjo aritmetične sredine (npr. prej predstavljene: mediana in modus).

V tabeli je, na primer, mogoče razbrati, da so vse tri uporabljene mere srednje vrednosti pri spremenljivkah a in b relativno podobne. Na primeru teh dveh spremenljivk je aritmetična sredina/povprečna vrednost ustrezna mera prikaza srednje vrednosti spremenljivke tudi glede na koeficient simetričnosti. V primeru spremenljivk c in d je modusov več, kar pa pomeni tudi, da je bolj kot modus za prikaz srednje vrednosti primerna mediana. Omenjeno bi lahko pomenilo tudi, da aritmetična sredina ni primerna za prikaz srednje vrednosti, vendar pa koeficient sploščenosti pri c in koeficient simetričnosti (!) pri c in d kažeta, da sta spremenljivki porazdeljeni približno normalno in je izračun povprečne vrednosti sprejemljiv.

Če potegnemo črto pod povedano, je pomembno, da opazovani pojav (spremenljivko) poznamo in vemo, kakšna je porazdelitev njegovih vrednosti, da bi se lahko odločili, katero mero srednje vrednosti uporabiti. Povedano bi bilo mogoče lepo predstaviti tudi grafično, a naj ta korak pustim za kakšnega izmed naslednjih prispevkov, ko bom govorila o predstavitvah in prikazih podatkov.

Marija Paladin

Advertisements

Avtor: Marija Paladin

Zaposlena na kadrovskem področju. Po izobrazbi magistra znanosti s področja managementa. Kontinuirano raziskovalno aktivna, najbolj na področju preučevanja vloge komunikacije v formalnem okolju, timskega dela ter različnih vidikov upravljanja s človeškimi viri (kadri) in organizacijo. Raziskovalno delo v največji meri temelji na uporabi kvantitativne metodologije in statističnih metod za obdelavo podatkov.

3 thoughts on “Uporaba različnih mer srednje vrednosti na primeru podatkov o brezposelnosti

  1. Pingback: Analiza podatkov Evropske družboslovne raziskave z vmesnikom Nesstar | Udomačena statistika

  2. Pingback: Risanje grafikonov kvantilov v Nesstarju | Udomačena statistika

  3. Pingback: Številke v marketingu | Udomačena statistika

Oddajte komentar

Fill in your details below or click an icon to log in:

WordPress.com Logo

Komentirate prijavljeni s svojim WordPress.com računom. Odjava / Spremeni )

Twitter picture

Komentirate prijavljeni s svojim Twitter računom. Odjava / Spremeni )

Facebook photo

Komentirate prijavljeni s svojim Facebook računom. Odjava / Spremeni )

Google+ photo

Komentirate prijavljeni s svojim Google+ računom. Odjava / Spremeni )

Connecting to %s