Σ
SDCalc
ØvetAnvendelser·9 min

Opdagelse af outliere med standardafvigelse

Lær hvordan du identificerer outliere i dine data ved hjælp af standardafvigelse. Mester 3-sigma-reglen, IQR-metoden, og forstå hvornår outliere bør fjernes.

Hvad er outliere?

Outliere er datapunkter, der afviger markant fra andre observationer. De kan skyldes målefejl, fejl i dataindtastning, eller de kan repræsentere genuint usædvanlige tilfælde, der er værd at undersøge.

Det orange punkt ved (10, 50) er en outlier

3-sigma-reglen

For normalfordelte data betragtes punkter ud over 3 standardafvigelser fra gennemsnittet som outliere. De forekommer mindre end 0,3% af tiden ved tilfældighed.

Outlier hvis

x < μ - 3σ OR x > μ + 3σ

Eksempel

Hvis prøveresultater har μ = 75 og σ = 10: - Nedre grænse: 75 - 30 = 45 - Øvre grænse: 75 + 30 = 105 - Enhver score under 45 eller over 105 er en outlier

Z-score-metoden

Beregn z-scoren for hvert datapunkt. Hvis |z| > 3 (eller nogle gange 2,5), er det en outlier.

Z-score

z = (x - μ) / σ

Tærskelindstillinger

- |z| > 3: Konservativ (fanger færre outliere) - |z| > 2,5: Moderat - |z| > 2: Liberal (fanger flere outliere)

IQR-metoden (alternativ)

Interkvartilområdet (IQR-metoden) er mere robust over for outliere, fordi den ikke bruger gennemsnittet eller standardafvigelsen.

1

Trin 1

Find Q1 (25. percentil) og Q3 (75. percentil)
2

Trin 2

Beregn IQR = Q3 - Q1
3

Trin 3

Nedre grænse = Q1 - 1,5 × IQR
4

Trin 4

Øvre grænse = Q3 + 1,5 × IQR
5

Trin 5

Punkter uden for grænserne er outliere

Håndtering af outliere

Slet ikke automatisk!

Outliere er ikke altid fejl. Inden du fjerner dem, skal du undersøge: - Er det en dataindtastnings- eller målefejl? - Er det en ægte ekstrem værdi? - Repræsenterer den et vigtigt grænsetilfælde?

Hvornår man fjerner

- Bekræftede dataindtastningsfejl - Fejlfunktion i måleudstyr - Uden for det mulige værdiområde

Hvornår man beholder

- Repræsenterer reel variabilitet - Vigtig for din analyse - Fjernelse ville skabe bias i resultaterne