Porównanie interpolacji i ekstrapolacji

Czym się różni ekstrapolacja od interpolacji?

Przy wytłumaczeniu skupimy się na regresji liniowej dla jednej zmiennej,
czyli funkcji która przyjmuje postać: \(\)

\( Y = aX + b \)

gdzie Y jest zmienną objaśnianą, a X jest zmienną objaśniającą

Przy wyznaczaniu równania regresji korzystamy z dostępnych danych, czyli par \( (X_{i}, Y_{i}) \).

Z interpolacją mamy do czynienia gdy chcemy wyznaczyć y dla konkretnego x należącego do zakresu danych X, czyli dla \( x \in [X_{min}, X_{max}]) \).
Natomiast z ekstrapolacją mamy do czynienia gdy chcemy wyznaczyć y dla x NIE należącego  do zakresu danych X, czyli dla \( x \notin [X_{min}, X_{max}]) \).

Przykład

Dla dostępnych danych (zaznaczonych kropkami na wykresie) policzyliśmy regresję liniową jednej zmiennej, która została zaznaczona czerwonym kolorem.

(wykres)

Na powyższym wykresie zakres danych X jest między 0 a 20, ponieważ dla \( x \in [0,20] \) mamy obserwacje zaznaczone na wykresie.

Zauważmy, że brakuje nam danych dla

  1. \( x \in (12, 14\)
  2. \( x > 20 \)

W pierwszy przypadku \( x \in [0, 20] \)  co oznacza, że mamy do czynienia z interpolacją, czyli dla wartości \( x \in (12, 14\) interpolujemy wartość y.

W drugim przypadku \( x \notin [0, 20] \)  co oznacza, że mamy do czynienia z extrapolacją, czyli dla wartości \( x > 20\) ekstrapolujemy wartość y.

 

Funkcja trendu – interpolacja czy ekstrapolacja?

Funkcja trendu bazuje na czasie (tzn. zmienną objaśniająca jest czas) i służy do prognozowania Y w przyszłości, czyli poza dostępnym zakresem czasu.
Co oznacza, że w przypadku prognoz trendu ZAWSZE będziemy mieć do czynienia z ekstrapolacją.

 

Co jest lepsze: interpolacja czy ekstrapolacja?

W przypadku interpolacji mamy większą pewność co do otrzymanych wartości.
Ekstrapolacja jest zawsze wyprawą w nieznane i trzeba być bardzo ostrożnym przy podawaniu prognoz dot. nieznanego zakresu danych (X).

Dobrą praktyką przy ekstrapolacji jest nie podawanie prognoz
dla zbyt daleko leżących (od zakresu X) X

Intuicja:

W powyższym przykładzie mimo braku danych dla \( x \in (12,14) \) wartości y dla \( x \leq 12 \) oraz dla \( x \geq 14 \) wskazują na silną zależność liniową przez co możemy założyć, że pewnie przedziału \( x \in (12,14) \) będzie tak samo.

Czy możemy to samo założyć np. dla wartości \( x > 30 \). Z racji dalekiej odległości od zakresu danych \( x \in [0, 20] \) będzie to raczej kłopotliwe założenie.

 

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.