Współczynnik korelacji Spearmana

Współczynnik korelacji Spearmana służy do badania zależności między danymi. Współczynnik Spearmana mierzy dowolną monotoniczną zależność. Współczynnik korelacji Spearmana jest ogólniejszy od współczynnika Pearsona, który mierzy tylko zależność liniową.

Np. Jeżeli w naszych danych X i Y zachodziłaby relacja  Y = X^{2} to współczynnik Pearsona byłby bliski 0, a współczynnik Spearmana bliski 1.

 

Definicja:

 \Large r_{s} = 1- \dfrac{6 \cdot \sum d^{2}_{i}}{n(n^{2}-1)}

gdzie

n - ilość obserwacji (X i Y mają tyle samo obserwacji)

 d_{i} - różnica między rangami X i Y :  RX_{i}  RY_{i}

Rangi określają pozycję na której znajduje się dana obserwacja po uszeregowaniu danych.
W przypadku wystąpienia jednakowych wartości  zmiennych, należy przyporządkować im średnią arytmetyczną obliczoną z ich kolejnych numerów- pozycji, tzn. jeżeli mamy 2 takie same wartości na pozycji 2 i 3 to ich wspólną pozycją będzie  \dfrac{2+3}{2} =2.5

Interpretacja współczynnika korelacji:

Rodzaj korelacji:

  1. r > 0 korelacja dodatnia- gdy wartość X rośnie to Y też
  2. r = 0 brak korelacji- gdy X rośnie to Y czasem rośnie a czasem maleje
  3. r < 0 korelacja ujemna- gdy X rośnie to Y maleje

Siła korelacji dla |r|

  1. < 0.2 - brak związku liniowego
  2. 0.2 - 0.4 - słaba zależność
  3. 0.4 -0.7 - umiarkowana zależność
  4. 0.7 - 0.9 - dość silna zależność
  5. > 0.9 - bardzo silna zależność

 

Zobaczmy jak to wygląda na przykładzie.

 

Przykład:

Zbadano zależność między długością serii produkcyjnej a jednostkowym kosztem produkcji i otrzymano następujące dane. Oblicz współczynnik korelacji Spearmana:

DŁUGOŚĆ SERII X (SZT.)8090100100110120
KOSZT JEDNOSTKOWY Y (ZŁ.)12910986

Teraz przypiszemy odpowiednie pozycje-rangi obserwacji z X i Y:

 X_{i}  RX_{i}  Y_{i}  RY_{i}
801126
9029 \dfrac{3+4}{2} = 3.5
100 \dfrac{3+4}{2} = 3.5 105
100 \dfrac{3+4}{2} = 3.5 9 \dfrac{3+4}{2} = 3.5
110582
120661

Ranga to po prostu pozycja w uporządkowanym zbiorze wartości. Przeanalizujmy to na przykładzie danych Y: 12, 9 , 10, 9, 8, 6.

Najpierw uszeregujmy dane: 6, 8, 9, 9, 10, 12

Teraz możemy im przypisać pozycje: 6 - 1, 8 - 2, 9 - 3 i 4, 10 - 5, 12 - 6

Ponieważ 9 pojawia się 2 razy na pozycji 3 i 4 więc ranga dla 9tki będzie wynosić  \frac{3+4}{2} = 3.5 .

Teraz policzmy różnicę rang  d_{i} oraz  d^{2}_{i} :

 RX_{i}  RY_{i}  d_{i} =  RX_{i} -  RY_{i}  d^{2}_{i}
16-525
2 \dfrac{3+4}{2} = 3.5 -1.52.25
 \dfrac{3+4}{2} = 3.5 5-1.52.25
 \dfrac{3+4}{2} = 3.5  \dfrac{3+4}{2} = 3.5 00
5239
61525
 \sum d^{2}_{i} = 63.5

Teraz możemy już skorzystać ze wzoru:

 r_{s} = 1- \dfrac{6 \cdot \sum d^{2}_{i}}{n(n^{2}-1)} = 1 - \dfrac{6 \cdot 63.5}{6\cdot (6^{2}-1)} =  1 - \dfrac{381}{210} \approx 1 - 1.81 = -0.81

Również w przypadku korelacji Spearmana otrzymaliśmy silnią ujemną korelację między długością serii a kosztem jednostkowym, tzn. gdy rośnie długość serii to spada koszt jednostkowy.

 

 

One comment:

  1. Fantastyczne tłumaczenie, przejrzałam wiele stron, ale tylko tu znalazłam jasny klarowny przykład a nie bełkot statystyczny.
    Tak można się uczyć i poszerzać wiedzę.
    Super, gratuluję i dziękuję

Dodaj komentarz

Twój adres email nie zostanie opublikowany.