¿Qué son los valores atípicos?
Los valores atípicos son datos que difieren significativamente de las demás observaciones. Pueden ser causados por errores de medición, errores de ingreso de datos, o pueden representar casos genuinamente inusuales que vale la pena investigar.
El punto naranja en (10, 50) es un valor atípico
La regla de 3 sigma
Para datos con distribución normal, los puntos que se encuentran más allá de 3 desvíos estándar de la media se consideran valores atípicos. Ocurren menos del 0,3% de las veces por azar.
Es valor atípico si
x < μ - 3σ OR x > μ + 3σ
Ejemplo
Si las notas de un examen tienen μ = 75 y σ = 10:
- Límite inferior: 75 - 30 = 45
- Límite superior: 75 + 30 = 105
- Cualquier nota por debajo de 45 o por encima de 105 es un valor atípico
Método de la puntuación Z
Se calcula la puntuación Z para cada dato. Si |z| > 3 (o a veces 2,5), es un valor atípico.
Puntuación Z
z = (x - μ) / σ
Opciones de umbral
- |z| > 3: Conservador (detecta menos valores atípicos)
- |z| > 2,5: Moderado
- |z| > 2: Liberal (detecta más valores atípicos)
Método IQR (alternativa)
El método del rango intercuartílico (IQR) es más robusto ante valores atípicos porque no utiliza la media ni el desvío estándar.
1
Paso 1
Encontrar Q1 (percentil 25) y Q3 (percentil 75)
2
Paso 2
Calcular IQR = Q3 - Q1
3
Paso 3
Límite inferior = Q1 - 1,5 × IQR
4
Paso 4
Límite superior = Q3 + 1,5 × IQR
5
Paso 5
Los puntos fuera de los límites son valores atípicos
Manejo de valores atípicos
No los elimines automáticamente
Los valores atípicos no siempre son errores. Antes de eliminarlos, investigá:
- ¿Es un error de ingreso de datos o de medición?
- ¿Es un valor extremo genuino?
- ¿Representa un caso límite importante?
Cuándo eliminarlos
- Errores de ingreso de datos confirmados
- Falla del equipo de medición
- Fuera del rango posible de valores
Cuándo conservarlos
- Representan variabilidad real
- Son importantes para tu análisis
- Eliminarlos sesgaría los resultados