Obserwacje nietypowe/odstające

\(\)

Obserwacje nietypowe(odstające) to obserwacje, które nie pasują do modelu, tzn są o wiele za dużo lub o wiele za małe. Często zmienne odstające biorą się z błędów pomiarowych lub pomyłek przy wprowadzaniu informacji do systemu/baz danych. Obserwacje nietypowe utrudniają, a czasami wręcz uniemożliwiają przeprowadzenie poprawnej analizy.

Znajdywanie wartości odstających:
Obserwacja odstająca to obserwacja, która nie należy do poniższego przedziału:

\(X_{ods} \not\in [ Q_{1} – k(Q_{3}-Q_{1}) , Q_{3} + k(Q_{3}-Q_{1}) ] \) gdzie k > 0

Najczęściej przyjmuje się k = 1.5

Wtedy wzór wygląda następująco:

\( X_{ods} \not\in [ Q_{1} – 1.5(Q_{3}-Q_{1}) , Q_{3} + 1.5(Q_{3}-Q_{1}) ] \)

co po uproszczeniu daje:

\( X_{ods} \not\in [ 2.5Q_{1} – 1.5Q_{3} , 2.5Q_{3} – 1.5Q_{1} ] \)

Intuicja:
Chcemy policzyć średnią pracowników w pewnej firmie. Załóżmy, że firma zatrudnia 100 osób: 99 pracowników (niech każdy zarabia po 3000zł) oraz ich szefa ( niech ten zarabia 100 000zł ). Jak widać pensja szefa znacznie odstaje od pensji pracowników. Czy powinniśmy ją wliczać do średniej?

Średnia pensja (bez szefa): 3 tyś. zł

Średnia pensja (wliczając szefa): prawie 4 tyś. zł

Pensja szefa bardzo zaburza analizę i lepiej nie brać jej pod uwagę przy analizie.

Oczywiście musi to zostać zaznaczone w analizie, żeby nie było żadnych wątpliwości!

Pensja szefa znacząco odbiegała od reszty, więc łatwo widać, że jest to obserwacja odstająca. Jednak nie zawsze tak jest, dlatego w większości przypadków powinniśmy skorzystać z kryterium określającego czy obserwacja jest odstająca.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.