Współczynnik korelacji liniowej – Pearsona

Współczynnik korelacji liniowej (Pearsona) służy do badania liniowej zależności między danymi.

Do czego przyda się współczynnik korelacji?

Załóżmy, że dysponujemy danymi dotyczącymi wielkości mieszkań (X) oraz ceną ich wynajmu (Y). Dzięki współczynnikowi korelacji Pearsona jesteśmy w stanie określić czy kupując większe mieszkanie zapłacimy proporcjonalnie więcej- może się zdarzyć, że większe mieszkanie będzie tańsze (ponieważ większe mieszkania mogą leżeć na obrzeżach miasta) lub mieszkanie nie będzie proporcjonalnie droższe (np. małe mieszkania mogą być stosunkowo drogie, tzn. dopłacając niewielką kwotę do ceny kawalerki możemy kupić mieszkanie 2-3 pokojowe ).

Więcej o samej korelacji można przeczytać tutaj.

Definicja współczynnika korelacji liniowej

Jak obliczyć współczynnik korelacji liniowej? Posłużymy się poniższym wzorem: \(\)

\( r_{xy} = \frac{\sum (X_{i} – \overline{X}) \cdot (Y_{i} – \overline{Y}) }{\sqrt{\sum (X_{i} – \overline{X})^{2} \cdot \sum (Y_{i} – \overline{Y})^{2}} } = \frac{\frac{1}{n}\sum X_{i}Y_{i}- \overline{X}\overline{Y}}{\sigma_{X} \cdot \sigma_{Y}} = \frac{cov(X,Y)}{\sigma_{X} \cdot \sigma_{Y}}\)

\( X_{i} \), \( Y_{i} \) – i-te wartości obserwacji z populacji X i Y
\( \overline{X} \), \( \overline{Y} \) – średnie z populacji X i Y
\(\sigma_{x} \) , \( \sigma_{y} \)- odchylenie standardowe populacji X i Y
n- ilość obserwacji (X i Y mają tyle samo obserwacji)

Aby dowiedzieć się jak wyliczyć średnią, odchylenie standardowe lub kowariancję kliknij na odpowiednie hasło.

Jak interpretować wartość korelacji

Rodzaj korelacji:

  1. r > 0 korelacja dodatnia– gdy wartość X rośnie to Y też
  2. r = 0 brak korelacji– gdy X rośnie to Y czasem rośnie a czasem maleje
  3. r < 0 korelacja ujemna– gdy X rośnie to Y maleje

Siła korelacji dla |r|

  1. < 0.2 – brak związku liniowego
  2. 0.2 – 0.4 – słaba zależność
  3. 0.4 -0.7 – umiarkowana zależność
  4. 0.7 – 0.9 – dość silna zależność
  5. > 0.9 – bardzo silna zależność

Siła korelacji wpływa na to jak dużo danych zachowuje się tak jak oczekujemy, tzn. załóżmy, że r > 0 tzn. gdy X rośnie to Y też. Gdy r jest wynosi np. 0.3 tzn. że tylko część danych spełnia naszą zależność – tendencja jest widoczna, ale zdarza się więcej odstępstw niż w przypadku silniejszej zależności. Gdy r jest bliskie 1 to prawie wszystkie dane spełniają założenia- tendencja jest bardzo widoczna.

Teraz przejdźmy do zadań, które wyjaśnią nam jak obliczyć współczynnik korelacji liniowej.

Zadanie 1:
Zbadano zależność między długością serii produkcyjnej a jednostkowym kosztem produkcji i otrzymano następujące dane. Oblicz współczynnik korelacji Pearsona:

DŁUGOŚĆ SERII X (SZT.)8090100100110120
KOSZT JEDNOSTKOWY Y (ZŁ.)12910986

Dalsza część treści jest płatna. Dokonaj zakupu lub zaloguj się

Regulamin dostępny tutaj
Zaloguj się lub Wykup
Sprawdź Wykup
Anuluj
30dniowy abonament, 69zł
Dostęp na 6 miesięcy, 79zł
30 dni, wszystkie treści + automatyczne rozwiązywanie zadań, 119zł
Dostęp na 6 miesięcy, wszystkie treści + automatyczne rozwiązywanie zadań, 129zł
Odblokuj dostęp do wszystkich treści na 30 dni.
Sprawdź
Odblokuj dostepDokonując zamówienia potwierdzasz zapoznanie się z regulaminem
Odblokuj dostęp do wszystkich treści na 6 miesięcy
Sprawdź
Odblokuj dostepDokonując zamówienia potwierdzasz zapoznanie się z regulaminem
Odblokuj dostęp do treści + automatycznego rozwiązywania zadań na 30 dni
Sprawdź
Odblokuj dostepDokonując zamówienia potwierdzasz zapoznanie się z regulaminem
Odblokuj dostęp do treści + automatycznego rozwiązywania zadań na 6 miesięcy
Sprawdź
Odblokuj dostepDokonując zamówienia potwierdzasz zapoznanie się z regulaminem
Anuluj

Zadanie 2:
Pewien prowadzący ćwiczenia ze statystyki zbadał zależność między liczbą punktów otrzymanych na kolokwium, a liczbą godzin poświęconych na naukę. Na podstawie 10-elementowej próby otrzymał następujące wyniki:

\( \overline{Y} = 12pkt \) , \( \overline{X} = 5h \)
\( \sum_{i=0}^{10} (X_{i} – \overline{X})^2 = 4 \)
\( \sum_{i=0}^{10} (Y_{i} – \overline{Y})^2 = 25 \)
\( \sum_{i=0}^{10} (X_{i} – \overline{X})(Y_{i} – \overline{Y}) = 8\)

a) ocenić siłę i rodzaj zależności pomiędzy badanymi cechami
b) oszacuj liczbę punktów studenta, który uczył się do kolokwium 6h
c) podać interpretację parametrów wyznaczonej linii regresji
d) obliczyć współczynnik determinacji i podać jego interpretację

Treść dostępna po zalogowaniu

Zadanie 3:
Badając relację pomiędzy ceną szmaragdu (w USD), a jego wagą (w gramach) otrzymano następujące wyniki:

cov(X,Y) = 700, \( s^{2}_{x} = 25 \), \( \overline{Y} = 800 \), \( V_{y} = 30% \)

Oblicz współczynnik Preasona i zinterpretuj wyniki.

Treść dostępna po zalogowaniu

Zadanie 4 (od Gosi):
Dane w tabeli przedstawiają zużycie prądu w gospodarstwie domowym w zależności od liczby zamieszkałych w nim osób:

Zużycie prądu 90 160 280 450 550
Liczba mieszkańców 1 2 3 4 5
Dokonać analizy korelacji.

Treść dostępna po zalogowaniu

Komentarze:

  1. Pozdrawiam z biologii UŁ ;)
    Bo: “po co ta matma, chemia, fizyka” na biologii, to się nie przyda, a gdzie tam.

  2. Przydatny artykuł, wszystko jasne i czytelne, nie to co na zajęciach ehhh

  3. Może mi ktoś wytłumaczyć skąd się wzięło w zadaniu 3 przy obliczaniu Vy nagle wartość 0.3 bo nie mogę pojąć?

  4. Czy wartość liczbowa korelacji może być większa od 1 lub mieć wartość mniejsza niż -1?

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.