Współczynniki zbieżności i determinacji

Współczynnik zbieżności oraz współczynnik determinacji są ściśle związane z analizą regresji liniowej. Załóżmy, że wartości  X_{i} \in [0, 10] oraz że funkcja regresji liniową jest dana wzorem:

 Y = 2 \cdot X + 20

Jakiej wartości Y spodziewamy się dla X = 11?

Licząc ze wzoru wychodzi nam, że  y = 2 \cdot 11 + 20 = 42

 

A jakiej wartości Y spodziewamy się dla X = 20?

Licząc ze wzoru wychodzi nam, że  y = 2 \cdot 20 + 20 = 60 , ale czy możemy tak zrobić?

Zwróćmy, że X = 20 jest o wiele większy od X-ów dla których wyznaczyliśmy funkcję regresji. Dla X = 11 wszystko jest ok i wartość Y nie powinna odbiegać od wyznaczonej przez nas.

 

Aby być pewnym, że nasze oszacowanie Y jest dobre wyznacza się współczynniki zbieżności i determinacji:

Definicja:

Współczynnik determinacji:  \large R^{2} = r^{2}_{xy}

Współczynnik zbieżności :  \large \varphi^{2} = 1 - R^{2}

gdzie

 \large r_{xy} - współczynnik regresji liniowej między X i Y

 

Interpretacja:

 

Współczynnik determinacji  R^{2} określa jaka część danych jest wytłumaczona przez model - im większy tym prosta regresji jest lepiej dopasowana do danych:

  1. 0.0 - 0.5 - dopasowanie niezadowalające
  2. 0.5 - 0.6 - dopasowanie słabe
  3. 0.6 - 0.8 - dopasowanie zadowalające
  4. 0.8 - 0.9 - dopasowanie dobre
  5. 0.9 - 1.0 - dopasowanie bardzo dobre

Im prosta regresji jest lepiej dopasowana do danych (czyli im R^{2} większe ) tym możemy przewidzieć wartości Y dla bardziej oddalonych wartości X od danych na podstawie których stworzyliśmy prostą regresji liniowej.

 

Współczynnik zbieżności  \varphi^{2} opisuje jaka część danych nie jest wytłumaczona przez model. Im większe  R^{2} tym mniejsze  \varphi^{2} - suma obu współczynników sumuje się do 1 co jest oczywiste: np. skoro model wyjaśnia 80% tzn. że nie wyjaśnia 20%.

 

Przykład:

Przeanalizujmy wyniki z tematu: Regresja liniowa.

 

Funkcja regresji: Y = -0.13X + 22

 r_{xy} = -0.92

 

Wyliczmy współczynniki zbieżności i determinacji:

 R^{2} = r^{2}_{xy} = (-0.92)^{2}\ approx 0.85 - czyli dopasowanie jest dobre, 85% danych jest wytłumaczona przez model

 \varphi^{2} = 1 - 0.85 = 0.15 - tylko 15% danych nie jest wytłumaczona przez model

 

Ponieważ  R^{2} jest bliskie 1 to możemy przewidzieć koszt jednostkowy także dla dużego X, np dla X = 150

 Y = -0.13 \cdot 150 + 22 = -19.5 + 22 = 3.5

Przy długości serii 150szt. koszt jednostkowy wyniesie 3.5zł .

 

Oczywiście należy zachować ostrożność w dalekim przewidywaniu, np. dla X = 200 Y= -4zł co jest wynikiem niedorzecznym.

 

Nawet przy  R^{2} bliskim 1 nie możemy być 100% pewni co do wartości ekstremalnie odbiegających od naszych danych.

 

 

 

 

 

2 comments:

  1. "Licząc ze wzoru wychodzi nam, że y=2⋅20+20=40, ale czy możemy tak zrobić?"

    Sądzę, że jednak lepiej przyjąć: y=2⋅20+20=60.

Dodaj komentarz

Twój adres email nie zostanie opublikowany.