Hvad er outliere?
Outliere er datapunkter, der afviger markant fra andre observationer. De kan skyldes målefejl, fejl i dataindtastning, eller de kan repræsentere genuint usædvanlige tilfælde, der er værd at undersøge.
Det orange punkt ved (10, 50) er en outlier
3-sigma-reglen
For normalfordelte data betragtes punkter ud over 3 standardafvigelser fra gennemsnittet som outliere. De forekommer mindre end 0,3% af tiden ved tilfældighed.
Outlier hvis
Eksempel
Z-score-metoden
Beregn z-scoren for hvert datapunkt. Hvis |z| > 3 (eller nogle gange 2,5), er det en outlier.
Z-score
Tærskelindstillinger
IQR-metoden (alternativ)
Interkvartilområdet (IQR-metoden) er mere robust over for outliere, fordi den ikke bruger gennemsnittet eller standardafvigelsen.
Trin 1
Trin 2
Trin 3
Trin 4
Trin 5
Håndtering af outliere
Slet ikke automatisk!