Współczynnik korelacji liniowej - Pearsona

Współczynnik korelacji liniowej( Pearsona ) służy do badania liniowej zależności między danymi. Załóżmy, że dysponujemy danymi dotyczącymi wielkości kilku mieszkań(X) oraz ceną ich wynajmu (Y). Dzięki współczynnikowi korelacji Pearsona jesteśmy w stanie określić czy kupując większe mieszkanie zapłacimy proporcjonalnie więcej- może się zdarzyć, że większe mieszkanie będzie tańsze( ponieważ większe mieszkania mogą leżeć na obrzeżach miasta) lub mieszkanie nie będzie proporcjonalnie droższe( np. małe mieszkania mogą być stosunkowo drogie, tzn. dopłacając niewielką kwotę do ceny kawalerki możemy kupić mieszkanie 2-3 pokojowe ).

Definicja:

 r_{xy} = \dfrac{\sum (X_{i} - \overline{X}) \cdot (Y_{i} - \overline{Y}) }{\sqrt{\sum (X_{i} - \overline{X})^{2} \cdot \sum (Y_{i} - \overline{Y})^{2}} } = \dfrac{\dfrac{1}{n}\sum X_{i}Y_{i}- \overline{X}\overline{Y}}{\sigma_{X} \cdot \sigma_{Y}}

 X_{i} ,  Y_{i} - i-te wartości obserwacji z populacji X i Y
 \overline{X} ,  \overline{Y} - średnie z populacji X i Y
\sigma_{x} ,  \sigma_{y} - odchylenie standardowe populacji X i Y
n- ilość obserwacji (X i Y mają tyle samo obserwacji)

Interpretacja współczynnika korelacji:
Rodzaj korelacji:

  1. r > 0 korelacja dodatnia- gdy wartość X rośnie to Y też
  2. r = 0 brak korelacji- gdy X rośnie to Y czasem rośnie a czasem maleje
  3. r < 0 korelacja ujemna- gdy X rośnie to Y maleje

Siła korelacji dla |r|

  1. < 0.2 - brak związku liniowego
  2. 0.2 - 0.4 - słaba zależność
  3. 0.4 -0.7 - umiarkowana zależność
  4. 0.7 - 0.9 - dość silna zależność
  5. > 0.9 - bardzo silna zależność

Siła korelacji wpływa na to jak dużo danych zachowuje się tak jak oczekujemy, tzn. załóżmy, że r >0 tzn. gdy X rośnie to Y też. Gdy r jest wynosi np. 0.3 tzn. że tylko część danych spełnia naszą zależność- tendencja jest widoczna, ale zdarzają się odstępstwa. Gdy r jest bliskie 1 to prawie wszystkie dane spełniają założenia- tendencja jest bardzo widoczna.

Przykład:

Zbadano zależność między długością serii produkcyjnej a jednostkowym kosztem produkcji i otrzymano następujące dane. Oblicz współczynnik korelacji Pearsona:

DŁUGOŚĆ SERII X (SZT.)8090100100110120
KOSZT JEDNOSTKOWY Y (ZŁ.)12910986

Do policzenia korelacji potrzebujemy  \overline{X} ,  \overline{Y} ,  \Large \sigma_{x} ,  \Large \sigma_{y} :

n=6

 \overline{X} = \dfrac{1}{6} \cdot ( 80+90+100+100+110+120 ) = \dfrac{600}{6} = 100

 \overline{Y} = \dfrac{1}{6} \cdot ( 12+9+10+9+8+6 ) = \dfrac{54}{6} = 9

Do policzenia odchyleń sztandarowych skorzystamy z poniższej tabeli:

 X_{i}  X_{i} - \overline{X}  (X_{i} - \overline{X})^{2}  Y_{i}  Y_{i} - \overline{Y} (Y_{i}-\overline{Y})^{2}
80-204001239
90-10100900
100001011
10000900
110101008-11
120204006-39
 \sum = 1000\sum = 20

VarX = \dfrac{1}{6} \cdot \sum (X_{i} - \overline{X})^{2} = \dfrac{1000}{6} \approx 166.67
 \sigma_{x} = \sqrt{166.67} \approx 12.91
VarY = \dfrac{1}{6} \cdot \sum (Y_{i} - \overline{Y})^{2} = \dfrac{20}{6} \approx 3.33
 \sigma_{y} = \sqrt{3.33} \approx 1.82

Do obliczenia współczynnika korelacji liniowej użyję wzoru:
 r_{xy} = \dfrac{\dfrac{1}{n}\sum X_{i}Y_{i}- \overline{X}\overline{Y}}{\sigma_{X} \cdot \sigma_{Y}}

Potrzebujemy jeszcze policzyć  \sum X_{i}Y_{i} :

 \sum X_{i}Y_{i} = 80 \cdot 12 + 90 \cdot 9 + \ldots + 120 \cdot 6 = 5270

Teraz mamy już wszystko co jest potrzebne do policzenia współczynnika korelacji:
 r_{xy} = \dfrac{\dfrac{1}{n}\sum X_{i}Y_{i}- \overline{X}\overline{Y}}{\sigma_{X} \cdot \sigma_{Y}} = \dfrac{\dfrac{1}{6}\cdot 5270 - 100 \cdot 9}{12.91 \cdot 1.82} \approx \dfrac{-21.67}{23.5} \approx -0.92

Czyli między danymi występuje silna ujemna korelacja między długością serii, a kosztem jednostkowym, tzn. gdy rośnie długość serii to spada koszt jednostkowy.

3 comments:

Dodaj komentarz

Twój adres email nie zostanie opublikowany.