Czym są wartości odstające?
Wartości odstające (outliers) to punkty danych znacząco różniące się od pozostałych obserwacji. Mogą być spowodowane błędami pomiarowymi, pomyłkami przy wprowadzaniu danych lub mogą reprezentować rzeczywiście nietypowe przypadki warte zbadania.
Pomarańczowy punkt w pozycji (10, 50) jest wartością odstającą
Reguła 3 sigm
Dla danych o rozkładzie normalnym punkty wykraczające poza 3 odchylenia standardowe od średniej są uznawane za wartości odstające. Występują one w mniej niż 0,3% przypadków.
Wartość odstająca, jeśli
Przykład
Metoda Z-score
Oblicz Z-score dla każdego punktu danych. Jeśli |z| > 3 (lub czasem 2,5), punkt jest wartością odstającą.
Z-score
Opcje progowe
Metoda IQR (alternatywa)
Metoda rozstępu międzykwartylowego (IQR) jest bardziej odporna na wartości odstające, ponieważ nie wykorzystuje średniej ani odchylenia standardowego.
Krok 1
Krok 2
Krok 3
Krok 4
Krok 5
Postępowanie z wartościami odstającymi
Nie usuwaj automatycznie!