Hvad er outliere?
Outliere er datapunkter, der afviger markant fra andre observationer. De kan skyldes målefejl, fejl i dataindtastning, eller de kan repræsentere genuint usædvanlige tilfælde, der er værd at undersøge.
Det orange punkt ved (10, 50) er en outlier
3-sigma-reglen
For normalfordelte data betragtes punkter ud over 3 standardafvigelser fra gennemsnittet som outliere. De forekommer mindre end 0,3% af tiden ved tilfældighed.
Outlier hvis
x < μ - 3σ OR x > μ + 3σ
Eksempel
Hvis prøveresultater har μ = 75 og σ = 10:
- Nedre grænse: 75 - 30 = 45
- Øvre grænse: 75 + 30 = 105
- Enhver score under 45 eller over 105 er en outlier
Z-score-metoden
Beregn z-scoren for hvert datapunkt. Hvis |z| > 3 (eller nogle gange 2,5), er det en outlier.
Tærskelindstillinger
- |z| > 3: Konservativ (fanger færre outliere)
- |z| > 2,5: Moderat
- |z| > 2: Liberal (fanger flere outliere)
IQR-metoden (alternativ)
Interkvartilområdet (IQR-metoden) er mere robust over for outliere, fordi den ikke bruger gennemsnittet eller standardafvigelsen.
1
Trin 1
Find Q1 (25. percentil) og Q3 (75. percentil)
2
Trin 2
Beregn IQR = Q3 - Q1
3
Trin 3
Nedre grænse = Q1 - 1,5 × IQR
4
Trin 4
Øvre grænse = Q3 + 1,5 × IQR
5
Trin 5
Punkter uden for grænserne er outliere
Håndtering af outliere
Slet ikke automatisk!
Outliere er ikke altid fejl. Inden du fjerner dem, skal du undersøge:
- Er det en dataindtastnings- eller målefejl?
- Er det en ægte ekstrem værdi?
- Repræsenterer den et vigtigt grænsetilfælde?
Hvornår man fjerner
- Bekræftede dataindtastningsfejl
- Fejlfunktion i måleudstyr
- Uden for det mulige værdiområde
Hvornår man beholder
- Repræsenterer reel variabilitet
- Vigtig for din analyse
- Fjernelse ville skabe bias i resultaterne