Obserwacje nietypowe(odstające) to obserwacje, które nie pasują do modelu, tzn są o wiele za dużo lub o wiele za małe. Często zmienne odstające biorą się z błędów pomiarowych lub pomyłek przy wprowadzaniu informacji do systemu/baz danych. Obserwacje nietypowe utrudniają, a czasami wręcz uniemożliwiają przeprowadzenie poprawnej analizy.
Znajdywanie wartości odstających:
Obserwacja odstająca to obserwacja, która nie należy do poniższego przedziału:
\(X_{ods} \not\in [ Q_{1} – k(Q_{3}-Q_{1}) , Q_{3} + k(Q_{3}-Q_{1}) ] \) gdzie k > 0
Najczęściej przyjmuje się k = 1.5
Wtedy wzór wygląda następująco:
\( X_{ods} \not\in [ Q_{1} – 1.5(Q_{3}-Q_{1}) , Q_{3} + 1.5(Q_{3}-Q_{1}) ] \)
co po uproszczeniu daje:
\( X_{ods} \not\in [ 2.5Q_{1} – 1.5Q_{3} , 2.5Q_{3} – 1.5Q_{1} ] \)
Intuicja:
Chcemy policzyć średnią pracowników w pewnej firmie. Załóżmy, że firma zatrudnia 100 osób: 99 pracowników (niech każdy zarabia po 3000zł) oraz ich szefa ( niech ten zarabia 100 000zł ). Jak widać pensja szefa znacznie odstaje od pensji pracowników. Czy powinniśmy ją wliczać do średniej?
Średnia pensja (bez szefa): 3 tyś. zł
Średnia pensja (wliczając szefa): prawie 4 tyś. zł
Pensja szefa bardzo zaburza analizę i lepiej nie brać jej pod uwagę przy analizie.
Oczywiście musi to zostać zaznaczone w analizie, żeby nie było żadnych wątpliwości!
Pensja szefa znacząco odbiegała od reszty, więc łatwo widać, że jest to obserwacja odstająca. Jednak nie zawsze tak jest, dlatego w większości przypadków powinniśmy skorzystać z kryterium określającego czy obserwacja jest odstająca.