Porównanie średniej, mediany i dominanty

Średnia, mediana i dominanta to tzw. miary centralne, które określają centrum, “środek” zbioru. Słowo środek jest wzięte w cudzysłów bo każda z tych miar inaczej rozumie słowo środek, ale do tego dojedziemy. \(\)

Definicja miar centralnych:

  1. Średnia \( \overline{X} \) – średnia z liczb – najczęściej średnia arytmetyczna. Więcej o średniej
  2. Mediana Me – wartość środkowa: 50% wartość jest mniejszych bądź równych medianie oraz 50% wartości jest większych bądź równych medianie. Więcej o medianie
  3. Dominanta D – wartość najczęstsza. Więcej o dominancie

Kiedy dana wartość nie może być wyliczona:

  1. Średnia: kiedy wartość nie są liczbowe
  2. Mediana – może być wyliczona zawsze tylko gdy dane można uszeregować
  3. Dominanta – nie może być wyliczona gdy mamy 2 lub więcej najliczniejsze wartości/przedziały

Ograniczenie dotyczące wartości nie liczbowych: Załóżmy, że analizujemy urodę koleżanek/kolegów z naszej byłej/obecnej klasy. Ciężko byłoby policzyć średnią z ich urody ale Mediana już nie stanowi problemu- mediana wtedy oznacza, które dziewczyny/chłopcy zaliczają się do tych mniej urodziwych(na lewo od mediany) od tych bardziej urodziwych. Dominanta też ni9e stanowi problemu, ponieważ możemy określić czy więcej było dziewczyn ładnych, średnich, czy brzydkich(chyba, że istnieją 2, lub więcej, najliczniejsze grupy).

Ograniczenie dotyczące możliwości uszeregowania danych: Rozważmy taki przykład: w koszyku mamy 5 jabłek, 2 gruszki i banana. Ponieważ dane nie są liczbowe to nie możemy określić średniej. Ciężko też nam uszeregować elementy zbioru więc nie możemy wyznaczyć mediany. Ale dominanta może zostać wyznaczona, ponieważ najwięcej jest jabłek.

Problemy z danymi zawierającymi wartości odstające:

Jeżeli dane zawierają wartości odstające wtedy średnia nie jest dobrą miarą do analizy danych. Wynika to z faktu, że średnia jest bardzo podatna na wartości ostające.

Porównanie mediany, dominanty i średniej przykład

Przeanalizujmy to na prostym przykładzie dot. zarobków:

Imię:JacekKarolinaMarekMarcinWitek
Zarobki:20001500250020002000

\( \overline{X} = 2000 \)zł \( Me = 2000 \)zł \( D = 2000 \) zł

Teraz zmienię wartość zarobków Witka:

Imię:JacekKarolinaMarekMarcinWitek
Zarobki:200015002500200020000

\( \overline{X} = 5600 \)zł \( Me = 2000 \)zł \( D = 2000 \) zł

Jak widzimy zmieniła się tylko średnia i teraz średnie zarobki w tej grupie wynoszą: 5 600zł, a jak widzimy 4 na 5 osób zarabiają o wiele mniej- trochę jak ze średnimi zarobkami w Polsce.

Czy można coś poradzić na podatność (obciążoność) średniej?

Tak, można odrzucić obserwacje odstające jednak lepiej jest użyć mediany
Jedyną zaletą średniej jest jej prostota- najłatwiej ją wytłumaczyć i najłatwiej wyliczyć.

Mediana a dominanta

Obie miary są odporne na obserwacje odstające  więc wszystko zależy od tego co chcemy otrzymać. Mediana jest bardziej uniwersalną miarą więc ją sugerowałbym użyć w pierwszej kolejności.

Wracając do zarobków w Polsce: czasem bardziej nas interesuje, że 50% Polaków zarabia mniej niż 2500zł, a 50% więcej niż 2500- wtedy użyjemy mediany. A czasem interesuje nas, że dominanta zarobków Polaków jest w przedziale 2000-2300.

Komentarze:

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.