Średnia arytmetyczna czy mediana?

Średnia arytmetyczna czy mediana?

Średnia arytmetyczna czy mediana – którą miarę zastosować?

To pytanie często pada w przypadku chęci oszacowania wartości przeciętnej dla próbki (pomiarów) lub dla całej populacji. Średnia

Odpowiedź na pytanie średnia czy mediana brzmi: „to zależy„.

Zależy to w głównej mierze od parametru populacji, trzeciego momentu centralnego, który definiuje asymetrię rozkładu danych. Miarą stosowaną do określenia stopnia asymetrii rozkładu danych jest współczynnik skośności, którego wartość dla rozkładu symetrycznego (np.: rozkład Gaussa, rozkład t-Studenta) wynosi 0 (zero).

Wartość współczynnika skośności powyżej 0 świadczy o prawostronnej asymetrii rozkładu danych i analogicznie wartość współczynnika skośności poniżej 0 świadczy o lewostronnej asymetrii rozkładu danych. Jeżeli wartość współczynnika skośności jest bliska 0 (w praktyce przyjmuje się przedział od -0,5 do 0,5) to można wstępnie założyć, że badane dane rozkładają się bez istotnej asymetrii. W takim przypadku wartość przeciętną oszacować można z wykorzystaniem średniej arytmetycznej. Jeżeli wartość skośności jest poza tym zakresem, to warto rozważyć wykorzystanie mediany.

Uwaga! W niniejszym artykule zakłada się rozkład jednomodalny!

Średnia czy mediana? Rozważmy to na przykładzie rozkładu płac w firmie X.

Na Rys. 1 przedstawiono zarobki 240 pracowników pewnej firmy X od stanowiska Operatora do Dyrektora Zakładu. Zarobki poddano analizie statystycznej z wykorzystaniem programu MS Excel i dodatku Analysis ToolPak.

Rys. 1. Zarobki 240 pracowników firmy X od stanowiska Operatora do Dyrektora Zakładu.

Z wykorzystaniem formuł =ŚREDNIA() i =MEDIANA() policzono wartości miar przeciętnych, które wyniosły odpowiednio 7 434,6 zł i 6 394,4 zł. Z wykorzystaniem formuły =SKOŚNOŚĆ() policzono wartość współczynnika skośności, która wyniosła 2,23. Jest to wartość istotnie różna od 0, co wskazuje, że „uczciwszą” miarą przeciętną w tym badaniu będzie mediana.

Dane przeanalizowano graficznie z wykorzystaniem histogramu i wykresu procentowych wartości skumulowanych. Do tego celu wykorzystano dodatek Analysis ToolPak. Szerokość przedziału klasowego określono na wartość 1 000 zł. Na Rys. 2. znajdują się obliczenia do wykresów.

Rys. 2. Dane do budowy histogramu i wykresu wartości skumulowanych. Analysis ToolPak.

Na Rys. 3 przedstawiono histogram. Widoczna i znaczna prawostronna asymetria koresponduje z wysoką wartością współczynnika skośności 2,23. Największa liczba pracowników (ok. 72%) skupiona jest wokół płac z zakresu 5 000 – 8 000 złotych, nieznaczna liczba osób (ok. 8%) przekroczyła zarobek wynoszący 10 000 złotych.

Rys. 3. Histogram. Rozkład zarobków w firmie charakteryzujący się prawostronną asymetrią.

Na Rys. 4 przedstawiono wykres skumulowanych wartości procentowych. Czerwoną strzałką zaznaczono przeciętną wartość zarobków w firmie X liczoną średnią arytmetyczną. Widoczne jest, że poniżej wartości średniej arytmetycznej znajduje się przynajmniej 61% pracowników tej firmy. Dokładne obliczenia wskazują wartość 63,8%.

Rys. 4. Skumulowany wykres zarobków w firmie X.

Średnia czy mediana – podsumowanie

W przypadku analizowania danych charakteryzujących się istotną asymetrią rozkładu, wyznaczanie wartości przeciętnej za pomocą średniej arytmetycznej może zniekształcić obraz rzeczywistości.

W omawianym przypadku podawanie wartości 7 434,6 złotych (średnia arytmetyczna) jako wartości przeciętnej, czyli w domyśle takiej, że poniżej i powyżej tej wartości znajduje się podobna liczba pracowników, jest zafałszowane. Podanie wartości 6 394,4 złotych (mediana) jako wartości przeciętnej jest bardziej uczciwe i dokładniej oddaje przeciętną pensję w firmie X.

Bardzo ważną czynnością obliczeniową rozpoczynającą jakąkolwiek analizę danych, jest statystyka opisowa oraz identyfikacja rozkładu danych.

.

Autor: dr inżRafał Popiel

Jeżeli artykuł Ci się podobał, to udostępnij go w mediach społecznościowych:

Zaufali nam:

.

Co mówią nasi zadowoleni Klienci:

.

W przypadku pytań zapraszamy do kontaktu: