poniedziałek, 3 grudnia 2012

Statystyka opisowa

Statystyka opisowa



Statystyczne metody badania prawidłowości w zakresie struktury zjawisk masowych



Są cztery rodzaje prawidłowości statystycznej:
1)     prawidłowość w zakresie struktury
2)     prawidłowość w zakresie dynamiki
3)     prawidłowość w zakresie współzależności w czasie
4)     prawidłowość w zakresie współzależności w przestrzeni

Badanie prawidłowości w zakresie struktury zjawisk masowych możemy w skrócie nazwać analizą struktury.

Podstawowymi formami prezentacji danych statystycznych w analizie struktury są szeregi szczegółowe i szeregi rozdzielne. Szeregi szczegółowe wykorzystujemy wówczas, gdy badanie dotyczy małych zbiorowości statystycznych (kilka, kilkanaście jednostek). Natomiast wraz ze wzrostem liczby jednostek zbiorowości wskazane jest prezentowanie materiału statystycznego w postaci szeregów rozdzielnych.

Szereg szczegółowy to najstarszy szereg statystyczny. Tworzą go wartości jednostek uporządkowane od wartości najmniejszych do największych. Nie mówimy więc tu o tabelarycznej formie prezentacji danych (bo jest tylko jeden wiersz).
W szeregu rozdzielczym mamy dwie kolumny: warianty badanych cech oraz liczby jednostek. Jest więc on tabelaryczną formą prezentacji danych. Widoczny jest rozkład badanej cechy w danej zbiorowości. 

Istnieją też graficzne formy prezentacji danych. Do liniowych należą wielobok liczebności zwykły i skumulowany. Do powierzchniowych należą histogram zwykły i skumulowany. Formy te są graficznym przedstawieniem szeregów rozdzielczych przedziałowych. Jeżeli mamy szereg rozdzielczy punktowy, to stosujemy diagram punktowy.

Wybór szeregu punktowego i przedziałowego nie zależy od rodzaju badanej cechy (skokowego i ciągłego), choć w pewien sposób są one powiązane. Jednak głównie opieramy się na liczbie wariantów danej cechy.


Typy rozkładów empirycznych w zbiorowości statystycznej.

Rozkładem empirycznym badanej cechy nazywamy przyporządkowanie kolejnym wartościom cechy, odpowiadającym im liczebnościom. Szereg rozdzielczy dla cechy ilościowej to właśnie tabelaryczna forma przedstawienia rozkładu empirycznego badanej cechy zbiorowości statystycznej.

Rodzaje (cechy) rozkładu empirycznego: 
1)     ze względu na liczbę punktów ekstremalnych; wyróżniamy jednomodalne (jedna wartość dominująca) i wielomodalne (kilka wartości dominujących)



2)     Ze względu na rodzaj zmienności; wyróżniamy tu rozkłady empiryczne
       a)symetryczne (mają oś symetrii a po obu jej stronach rozkład ilości jest taki sam);           rozkłady symetryczne można podzielić na normalne, spłaszczone i wysmukłe
     b)     asymetryczne (nie mają osi symetrii); dzielimy je na rozkłady o asymetrii lewostronnej i prawostronnej (przy czym każda z nich może być skrajna i umiarkowana)
Parametry opisowe rozkładu wartości cechy zbiorowości statystycznej

Parametrem opisowym (charakterystyką, miarą) nazywamy liczbę, która w sposób syntetyczny określa właściwości badanych zbiorowości statystycznych.

Parametry opisowe umożliwiają:
1)     sumaryczny opis rozkładu cechy w zbiorowości statystycznej
2)     porównanie
a)     dwóch lub więcej zbiorowości pod względem  rozkładu tej samej cechy
b)     rozkładów dwóch lub więcej cech w ramach jednej zbiorowości

Zapoznajmy się teraz z klasyfikacją parametrów opisowych.
Parametry opisowe w analizie struktury dzielimy na pięć grup w zależności od tego, czego dane parametry są miarą:
1)     tendencji centralnej
2)     zróżnicowania
3)     asymetrii
4)     spłaszczenia
5)     koncentracji

W zależności od tego, jakie mamy rozkłady empiryczne, wybieramy odpowiednie miary parametrów opisowych, np. prze rozkładzie symetrycznym nie liczymy asymetrii.

Wszystkie parametry opisowe dzielimy na:
a)      klasyczne
-          są wypadkową wartości przyjmowanych przez wszystkie jednostki badanej zbiorowości statystycznej
-          w ramach danej grupy parametrów wykluczają się wzajemnie
-          przy ich obliczaniu nie jest konieczne porządkowanie jednostek
b)      pozycyjne
-          są wyznaczane na podstawie wartości jednej lub kilku jednostek zajmujących szczególną pozycję w badanej zbiorowości statystycznej
-          w ramach danej grupy parametrów uzupełniają się wzajemnie i uzupełniają miary klasyczne
-          przy ich obliczaniu konieczne jest uporządkowanie jednostek według wartości badanej cechy (zazwyczaj od najmniejszych do największych)

Parametry opisowe możemy też podzielić w inny sposób. Na parametry:
a)     absolutne - miary mianowane, wyrażone w takich jednostkach, w jakich ujęta jest badana cecha
b)     względne (stosunkowe) – niemianowane, najczęściej wyrażone w procentach



Miary tendencji centralnej charakteryzują poziom wartości badanej cechy w zbiorowości statystycznej. Wszystkie miary w tej grupie to wielkości absolutne.

I. Miary klasyczne
                           średnia arytmetyczna
                            H  - średnia harmoniczna
                           CH  - średnia chronologiczna
                            G  - średnia geometryczna

Dwie ostatnie średnie wykorzystywane są przede wszystkim w analizie dynamiki.

Podstawową miarą jest X. Informuje ona jaka byłaby wartość cechy, gdyby wszystkie jednostki badanej zbiorowości były jednakowe, np. „przeciętny staż pracy wynosi 15 lat” jest równoważne ze stwierdzeniem „gdyby każdy z pracowników miałby mieć ten sam staż pracy to byłoby to 15 lat”.
Sposób obliczania średniej arytmetycznej zależy od formy prezentacji danych: dla szeregu szczegółowego obliczamy średnią arytmetyczną zwykłą, natomiast dla szeregu rozdzielczego średnią arytmetyczną ważoną (wagami są liczebności).


Warunki stosowania średniej arytmetycznej:
1)     konieczna jest znajomość wszystkich wartości badanej cechy
2)     zbiorowość powinna być jednorodna z punktu widzenia badanej cechy (czyli rozkład powinien się charakteryzować niewielkim zróżnicowaniem i słabą asymetrią)

Otwarte przedziały klasowe:
·         poniżej 20
·         20-29
·         30-39
·         40 i więcej

Sugerują one, że nie można policzyć X, ale są dwa wyjątki:
a)     Przy otwartych przedziałach klasowych można obliczyć X gdy są podstawy do domknięcia otwartych przedziałów klasowych, czyli liczebność w tych przedziałach jest nie większa niż 5% ogólnej liczebności badanej zbiorowości.
b)     Gdy nie ma przesłanek do domknięcia przedziałów klasowych, ale liczebność w tych przedziałach jest nie większa niż 1% ogólnej liczebności zbiorowości, można te przedziały pominąć.

Domknięcie powyższych przedziałów klasowych:
·         10-19
·         20-29
·         30-39
·         40-49 (rozpiętość ostatniego taka jak sąsiedniego!)

X nie powinno się liczyć przy skrajnej asymetrii, dla rozkładu wielomodalnego lub u-kształtnego, bo traci ona sens poznawczy. Zapoznać się z własnościami średniej arytmetycznej (zwłaszcza tej że średnia arytmetyczna musi się mieścić między xmin i xmax)

Średnia harmoniczna (XH) powinna być stosowana wówczas gdy wartości badanej cechy wyrażają stosunek między dwoma zjawiskami powiązanymi ze sobą w logiczny sposób, tzn. gdy badana cecha jest wskaźnikiem natężenia np. gęstość zaludnienia, pracochłonność produkcji, wydajność (wielkość produkcji : ilość zatrudnionych), koszt jednostkowy, współczynnik rentowności (ogólnie ujmując wszędzie gdzie mamy iloraz).
II. Miary pozycyjne

Dominanta (D) oraz kwantyle.

Dominanta to wartość która występuje najczęściej w badanej zbiorowości.
Sposób wyznaczania dominanty zależy od formy prezentowania danych statystycznych.
Dla szeregu szczegółowego i rozdzielnego punktowego, dominantą jest ta wartość cechy, której odpowiada największa liczebność. Dla rozdzielnego przedziałowego dominantę można wyznaczyć w sposób przybliżony – graficznie (wykorzystując histogram zwykły) oraz analitycznie (za pomocą wzoru interpolacyjnego),

Warunki stosowania dominanty. Należy sprawdzić czy:
1)     rozkład badanej cechy jest jednomodalny
2)     rozpiętość przedziałów klasowych jest jednakowa (gdy przedziały nie są równe, to można zastosować odpowiednie wzorki)
3)     rozkład badanej cechy charakteryzuje się umiarkowaną asymetrią (ale nie jest to najważniejszy warunek)


III. Miary zmienności (zróżnicowania, rozproszenia, dyspersji)

Miary z tej grupy pozwalają określić jakie jest zróżnicowanie wartości cechy w badanej zbiorowości statystycznej. Dają odpowiedź na dwa pytania i z tego względu właśnie dzielą się na dwie grupy:
1) miary absolutne – odpowiadają na pytanie o ile średnio różnią się wartości cechy przyjmowane przez   poszczególne jednostki zbiorowości od swej przeciętnej
2) miary stosunkowe – odpowiadają na pytanie jak wielkie są to różnice w stosunku do przeciętnej.
Odchylenia poszczególnych wartości cechy od przeciętnej powstają pod wpływem przyczyn ubocznych, dlatego też miary zmienności mierzą w przybliżeniu składnik przypadkowy. Natomiast składnik systematyczny mierzy średnia arytmetyczna (inaczej się ją więc interpretuje jako wartość wszystkich cech gdy działa tylko przyczyna główna).


IV. Miary asymetrii

Miary te pozwalają zbadać czy wartości badanej cechy są rozłożone równomiernie w stosunku do średniej czy też mają tendencję do skupiania się przy dolnej bądź górnej granicy przedziału zmienności cechy. Pozwalają określić czy asymetria występuje, a jeżeli tak, to jaka jest jej siła i kierunek. Do oceny asymetrii wykorzystujemy trzy współczynniki asymetrii.

klasyczny A1 – najczęściej przyjmuje wartości z przedziału (-2;2),

pozycyjny A2 – ściśle określony <-1;1>

klasyczno-pozycyjny A3 – najczęściej z przedziału (-1;1),

Parametry A1 i A3 wykluczają się wzajemnie, gdyż mierzą asymetrię w całym obszarze zmienności. A2 mierzy asymetrię w zawężonym obszarze zmienności i uzupełnia miarę A1 lub A3.

O sile asymetrii decyduje wartość bezwzględna współczynnika A (w szczególności A1, A2, A3). Jeśli A=0 to mamy do czynienia z rozkładem symetrycznym. Im |A| jest bliżej końców przedziałów, tym asymetria jest silniejsza. Z reguły przyjmuje się następującą klasyfikację określania asymetrii:

A:  0 < słaba < 0,4 < umiarkowana < 0,7 < silna < 1
O kierunku asymetrii decyduje znak współczynnika asymetrii:
·         jeśli A<0 to mamy asymetrię lewostronną, czyli wartości cechy mają tendencję do skupiania się przy górnej granicy przedziałów obszaru zmienności;
·         jeśli A>0 to mamy asymetrię prawostronną, czyli wartości cechy mają tendencję do skupiania się przy dolnej granicy przedziałów obszaru zmienności;
·         jeśli A=0 to mamy rozkład symetryczny.



Brak komentarzy:

Prześlij komentarz