Czym się różni ekstrapolacja od interpolacji?
Przy wytłumaczeniu skupimy się na regresji liniowej dla jednej zmiennej,
czyli funkcji która przyjmuje postać: \(\)
\( Y = aX + b \)
gdzie Y jest zmienną objaśnianą, a X jest zmienną objaśniającą
Przy wyznaczaniu równania regresji korzystamy z dostępnych danych, czyli par \( (X_{i}, Y_{i}) \).
Z interpolacją mamy do czynienia gdy chcemy wyznaczyć y dla konkretnego x należącego do zakresu danych X, czyli dla \( x \in [X_{min}, X_{max}]) \).
Natomiast z ekstrapolacją mamy do czynienia gdy chcemy wyznaczyć y dla x NIE należącego do zakresu danych X, czyli dla \( x \notin [X_{min}, X_{max}]) \).
Przykład
Dla dostępnych danych (zaznaczonych kropkami na wykresie) policzyliśmy regresję liniową jednej zmiennej, która została zaznaczona czerwonym kolorem.
(wykres)
Na powyższym wykresie zakres danych X jest między 0 a 20, ponieważ dla \( x \in [0,20] \) mamy obserwacje zaznaczone na wykresie.
Zauważmy, że brakuje nam danych dla
- \( x \in (12, 14\)
- \( x > 20 \)
W pierwszy przypadku \( x \in [0, 20] \) co oznacza, że mamy do czynienia z interpolacją, czyli dla wartości \( x \in (12, 14\) interpolujemy wartość y.
W drugim przypadku \( x \notin [0, 20] \) co oznacza, że mamy do czynienia z extrapolacją, czyli dla wartości \( x > 20\) ekstrapolujemy wartość y.
Funkcja trendu – interpolacja czy ekstrapolacja?
Funkcja trendu bazuje na czasie (tzn. zmienną objaśniająca jest czas) i służy do prognozowania Y w przyszłości, czyli poza dostępnym zakresem czasu.
Co oznacza, że w przypadku prognoz trendu ZAWSZE będziemy mieć do czynienia z ekstrapolacją.
Co jest lepsze: interpolacja czy ekstrapolacja?
W przypadku interpolacji mamy większą pewność co do otrzymanych wartości.
Ekstrapolacja jest zawsze wyprawą w nieznane i trzeba być bardzo ostrożnym przy podawaniu prognoz dot. nieznanego zakresu danych (X).
Dobrą praktyką przy ekstrapolacji jest nie podawanie prognoz
dla zbyt daleko leżących (od zakresu X) X
Intuicja:
W powyższym przykładzie mimo braku danych dla \( x \in (12,14) \) wartości y dla \( x \leq 12 \) oraz dla \( x \geq 14 \) wskazują na silną zależność liniową przez co możemy założyć, że pewnie przedziału \( x \in (12,14) \) będzie tak samo.
Czy możemy to samo założyć np. dla wartości \( x > 30 \). Z racji dalekiej odległości od zakresu danych \( x \in [0, 20] \) będzie to raczej kłopotliwe założenie.