¿Qué son los valores atípicos?
Los valores atípicos son datos que difieren significativamente de las demás observaciones. Pueden ser causados por errores de medición, errores de ingreso de datos, o pueden representar casos genuinamente inusuales que vale la pena investigar.
El punto naranja en (10, 50) es un valor atípico
La regla de 3 sigma
Para datos con distribución normal, los puntos que se encuentran más allá de 3 desvíos estándar de la media se consideran valores atípicos. Ocurren menos del 0,3% de las veces por azar.
Es valor atípico si
Ejemplo
Método de la puntuación Z
Se calcula la puntuación Z para cada dato. Si |z| > 3 (o a veces 2,5), es un valor atípico.
Puntuación Z
Opciones de umbral
Método IQR (alternativa)
El método del rango intercuartílico (IQR) es más robusto ante valores atípicos porque no utiliza la media ni el desvío estándar.
Paso 1
Paso 2
Paso 3
Paso 4
Paso 5
Manejo de valores atípicos
No los elimines automáticamente