Que sont les valeurs aberrantes?
Les valeurs aberrantes sont des points de données qui diffèrent significativement des autres observations. Elles peuvent être causées par des erreurs de mesure, des erreurs de saisie de données, ou représenter des cas véritablement inhabituels qui méritent d’être examinés.
Le point orange à (10, 50) est une valeur aberrante
La règle des 3 sigma
Pour des données normalement distribuées, les points situés au-delà de 3 écarts types de la moyenne sont considérés comme des valeurs aberrantes. Ils se produisent moins de 0,3 % du temps par hasard.
Valeur aberrante si
Exemple
Méthode de la cote Z
Calculez la cote Z pour chaque point de données. Si |z| > 3 (ou parfois 2,5), c’est une valeur aberrante.
Cote Z
Options de seuil
Méthode de l’EIQ (alternative)
La méthode de l’écart interquartile (EIQ) est plus robuste face aux valeurs aberrantes parce qu’elle n’utilise ni la moyenne ni l’écart type.
Étape 1
Étape 2
Étape 3
Étape 4
Étape 5
Traitement des valeurs aberrantes
Ne les supprimez pas automatiquement!