Statystyka
opisowa
Statystyczne metody badania prawidłowości w
zakresie struktury zjawisk masowych
Są cztery rodzaje prawidłowości statystycznej:
1)
prawidłowość
w zakresie struktury
2)
prawidłowość
w zakresie dynamiki
3)
prawidłowość
w zakresie współzależności w czasie
4)
prawidłowość
w zakresie współzależności w przestrzeni
Badanie
prawidłowości w zakresie struktury zjawisk masowych możemy w skrócie nazwać
analizą struktury.
Podstawowymi
formami prezentacji danych statystycznych w analizie struktury są
szeregi szczegółowe i szeregi rozdzielne. Szeregi szczegółowe wykorzystujemy
wówczas, gdy badanie dotyczy małych zbiorowości statystycznych (kilka,
kilkanaście jednostek). Natomiast wraz ze wzrostem liczby jednostek zbiorowości
wskazane jest prezentowanie materiału statystycznego w postaci szeregów
rozdzielnych.
Szereg
szczegółowy to
najstarszy szereg statystyczny. Tworzą go wartości jednostek uporządkowane od
wartości najmniejszych do największych. Nie mówimy więc tu o tabelarycznej
formie prezentacji danych (bo jest tylko jeden wiersz).
W szeregu
rozdzielczym mamy dwie kolumny: warianty badanych cech oraz liczby
jednostek. Jest więc on tabelaryczną formą prezentacji danych. Widoczny jest
rozkład badanej cechy w danej zbiorowości.
Istnieją też
graficzne formy prezentacji danych. Do liniowych należą wielobok liczebności
zwykły i skumulowany. Do powierzchniowych należą histogram zwykły i
skumulowany. Formy te są graficznym przedstawieniem szeregów rozdzielczych
przedziałowych. Jeżeli mamy szereg rozdzielczy punktowy, to stosujemy diagram
punktowy.
Wybór
szeregu punktowego i przedziałowego nie zależy od rodzaju badanej cechy
(skokowego i ciągłego), choć w pewien sposób są one powiązane. Jednak głównie
opieramy się na liczbie wariantów danej cechy.
Typy
rozkładów empirycznych w zbiorowości statystycznej.
Rozkładem
empirycznym badanej
cechy nazywamy przyporządkowanie kolejnym wartościom cechy, odpowiadającym im
liczebnościom. Szereg rozdzielczy dla cechy ilościowej to właśnie tabelaryczna
forma przedstawienia rozkładu empirycznego badanej cechy zbiorowości
statystycznej.
Rodzaje
(cechy) rozkładu empirycznego:
1)
ze
względu na liczbę punktów ekstremalnych; wyróżniamy jednomodalne (jedna wartość
dominująca) i wielomodalne (kilka wartości dominujących)
2)
Ze
względu na rodzaj zmienności; wyróżniamy tu rozkłady empiryczne
a)symetryczne
(mają oś symetrii a po obu jej stronach rozkład ilości jest taki sam); rozkłady
symetryczne można podzielić na normalne, spłaszczone i wysmukłe
b)
asymetryczne
(nie mają osi symetrii); dzielimy je na rozkłady o asymetrii lewostronnej i
prawostronnej (przy czym każda z nich może być skrajna i umiarkowana)
Parametry
opisowe rozkładu wartości cechy zbiorowości statystycznej
Parametrem
opisowym (charakterystyką, miarą) nazywamy liczbę, która w sposób syntetyczny
określa właściwości badanych zbiorowości statystycznych.
Parametry
opisowe umożliwiają:
1)
sumaryczny
opis rozkładu cechy w zbiorowości statystycznej
2)
porównanie
a)
dwóch
lub więcej zbiorowości pod względem
rozkładu tej samej cechy
b)
rozkładów
dwóch lub więcej cech w ramach jednej zbiorowości
Zapoznajmy
się teraz z klasyfikacją parametrów opisowych.
Parametry
opisowe w analizie struktury dzielimy na pięć grup w zależności od tego, czego
dane parametry są miarą:
1)
tendencji
centralnej
2)
zróżnicowania
3)
asymetrii
4)
spłaszczenia
5)
koncentracji
W zależności
od tego, jakie mamy rozkłady empiryczne, wybieramy odpowiednie miary parametrów
opisowych, np. prze rozkładzie symetrycznym nie liczymy asymetrii.
Wszystkie
parametry opisowe dzielimy na:
a)
klasyczne
-
są
wypadkową wartości przyjmowanych przez wszystkie jednostki badanej zbiorowości
statystycznej
-
w
ramach danej grupy parametrów wykluczają się wzajemnie
-
przy
ich obliczaniu nie jest konieczne porządkowanie jednostek
b)
pozycyjne
-
są
wyznaczane na podstawie wartości jednej lub kilku jednostek zajmujących
szczególną pozycję w badanej zbiorowości statystycznej
-
w
ramach danej grupy parametrów uzupełniają się wzajemnie i uzupełniają miary
klasyczne
-
przy
ich obliczaniu konieczne jest uporządkowanie jednostek według wartości badanej
cechy (zazwyczaj od najmniejszych do największych)
Parametry
opisowe możemy też podzielić w inny sposób. Na parametry:
a)
absolutne
- miary mianowane, wyrażone w takich jednostkach, w jakich ujęta jest badana
cecha
b)
względne
(stosunkowe) – niemianowane, najczęściej wyrażone w procentach
Miary
tendencji centralnej charakteryzują
poziom wartości badanej cechy w zbiorowości statystycznej. Wszystkie miary w
tej grupie to wielkości absolutne.
I. Miary
klasyczne
średnia arytmetyczna
H - średnia
harmoniczna
CH -
średnia chronologiczna
G - średnia
geometryczna
Dwie ostatnie średnie
wykorzystywane są przede wszystkim w analizie dynamiki.
Podstawową
miarą jest X. Informuje ona jaka byłaby wartość cechy, gdyby wszystkie
jednostki badanej zbiorowości były jednakowe, np. „przeciętny staż pracy wynosi
15 lat” jest równoważne ze stwierdzeniem „gdyby każdy z pracowników miałby mieć
ten sam staż pracy to byłoby to 15 lat”.
Sposób
obliczania średniej arytmetycznej zależy od formy prezentacji danych: dla
szeregu szczegółowego obliczamy średnią arytmetyczną zwykłą, natomiast dla
szeregu rozdzielczego średnią arytmetyczną ważoną (wagami są liczebności).
Warunki
stosowania średniej arytmetycznej:
1)
konieczna
jest znajomość wszystkich wartości badanej cechy
2)
zbiorowość
powinna być jednorodna z punktu widzenia badanej cechy (czyli rozkład powinien
się charakteryzować niewielkim zróżnicowaniem i słabą asymetrią)
Otwarte przedziały klasowe:
·
poniżej 20
·
20-29
·
30-39
·
40 i więcej
Sugerują
one, że nie można policzyć X, ale są dwa wyjątki:
a)
Przy
otwartych przedziałach klasowych można obliczyć X gdy są podstawy do domknięcia
otwartych przedziałów klasowych, czyli liczebność w tych przedziałach jest nie
większa niż 5% ogólnej liczebności badanej zbiorowości.
b)
Gdy
nie ma przesłanek do domknięcia przedziałów klasowych, ale liczebność w tych
przedziałach jest nie większa niż 1% ogólnej liczebności zbiorowości, można te
przedziały pominąć.
Domknięcie powyższych
przedziałów klasowych:
·
10-19
·
20-29
·
30-39
·
40-49 (rozpiętość
ostatniego taka jak sąsiedniego!)
X nie powinno się liczyć
przy skrajnej asymetrii, dla rozkładu wielomodalnego lub u-kształtnego, bo
traci ona sens poznawczy. Zapoznać się z
własnościami średniej arytmetycznej (zwłaszcza tej że średnia arytmetyczna musi
się mieścić między xmin i xmax)
Średnia
harmoniczna (XH) powinna być stosowana wówczas gdy wartości
badanej cechy wyrażają stosunek między dwoma zjawiskami powiązanymi ze sobą w
logiczny sposób, tzn. gdy badana cecha jest wskaźnikiem natężenia np. gęstość
zaludnienia, pracochłonność produkcji, wydajność (wielkość
produkcji : ilość zatrudnionych), koszt jednostkowy, współczynnik rentowności (ogólnie
ujmując wszędzie gdzie mamy iloraz).
II. Miary
pozycyjne
Dominanta
(D) oraz kwantyle.
Dominanta to
wartość która występuje najczęściej w badanej zbiorowości.
Sposób
wyznaczania dominanty zależy od formy prezentowania danych statystycznych.
Dla szeregu
szczegółowego i rozdzielnego punktowego, dominantą jest ta wartość cechy,
której odpowiada największa liczebność. Dla rozdzielnego przedziałowego dominantę
można wyznaczyć w sposób przybliżony – graficznie (wykorzystując histogram
zwykły) oraz analitycznie (za pomocą wzoru interpolacyjnego),
Warunki
stosowania dominanty. Należy sprawdzić czy:
1)
rozkład
badanej cechy jest jednomodalny
2)
rozpiętość
przedziałów klasowych jest jednakowa (gdy przedziały nie są równe, to można
zastosować odpowiednie wzorki)
3)
rozkład
badanej cechy charakteryzuje się umiarkowaną asymetrią (ale nie jest to
najważniejszy warunek)
III. Miary zmienności (zróżnicowania, rozproszenia, dyspersji)
Miary z tej grupy pozwalają określić jakie jest zróżnicowanie wartości cechy w badanej zbiorowości statystycznej. Dają odpowiedź na dwa pytania i z tego względu właśnie dzielą się na dwie grupy:1) miary absolutne – odpowiadają na pytanie o ile średnio różnią się wartości cechy przyjmowane przez poszczególne jednostki zbiorowości od swej przeciętnej
2) miary stosunkowe – odpowiadają na pytanie jak wielkie są to różnice w stosunku do przeciętnej.
Odchylenia poszczególnych wartości cechy od przeciętnej powstają pod wpływem przyczyn ubocznych, dlatego też miary zmienności mierzą w przybliżeniu składnik przypadkowy. Natomiast składnik systematyczny mierzy średnia arytmetyczna (inaczej się ją więc interpretuje jako wartość wszystkich cech gdy działa tylko przyczyna główna).
IV. Miary asymetrii
klasyczny A1 – najczęściej przyjmuje wartości
z przedziału (-2;2),
pozycyjny A2 – ściśle określony <-1;1>
klasyczno-pozycyjny
A3 –
najczęściej z przedziału (-1;1),
Parametry A1
i A3 wykluczają się wzajemnie, gdyż mierzą asymetrię w całym
obszarze zmienności. A2 mierzy asymetrię w zawężonym obszarze
zmienności i uzupełnia miarę A1 lub A3.
O sile
asymetrii decyduje wartość bezwzględna współczynnika A (w szczególności A1,
A2, A3). Jeśli A=0 to mamy do czynienia z rozkładem
symetrycznym. Im |A| jest bliżej końców przedziałów, tym asymetria jest silniejsza.
Z reguły przyjmuje się następującą klasyfikację określania asymetrii:
A: 0 < słaba < 0,4 < umiarkowana <
0,7 < silna < 1
O kierunku
asymetrii decyduje znak współczynnika asymetrii:
·
jeśli
A<0 to mamy asymetrię lewostronną, czyli wartości cechy mają
tendencję do skupiania się przy górnej granicy przedziałów obszaru
zmienności;
·
jeśli
A>0 to mamy asymetrię prawostronną, czyli wartości cechy mają
tendencję do skupiania się przy dolnej granicy przedziałów obszaru
zmienności;
·
jeśli
A=0 to mamy rozkład symetryczny.
Brak komentarzy:
Prześlij komentarz