Vad är avvikande värden?
Avvikande värden (outliers) är datapunkter som skiljer sig markant från andra observationer. De kan orsakas av mätfel, felinmatning av data, eller så kan de representera genuint ovanliga fall värda att undersöka.
Den orangea punkten vid (10, 50) är ett avvikande värde
3-sigmaregeln
För normalfördelad data betraktas punkter bortom 3 standardavvikelser från medelvärdet som avvikande värden. De förekommer i mindre än 0,3 % av fallen av ren slump.
Outlier om
Exempel
Z-poängmetoden
Beräkna z-poängen för varje datapunkt. Om |z| > 3 (eller ibland 2,5) är det ett avvikande värde.
Z-poäng
Tröskelval
IQR-metoden (alternativ)
Kvartilavståndsmetoden (IQR) är mer robust mot avvikande värden eftersom den inte använder medelvärde eller standardavvikelse.
Steg 1
Steg 2
Steg 3
Steg 4
Steg 5
Hantering av avvikande värden
Ta inte bort automatiskt!