Σ
SDCalc
IntermedioAplicaciones·9 min

Detección de Valores Atípicos con Desvío Estándar

Aprendé a identificar valores atípicos en tus datos usando el desvío estándar. Dominá la regla de 3 sigma, el método IQR y entendé cuándo deben eliminarse los valores atípicos.

¿Qué son los valores atípicos?

Los valores atípicos son datos que difieren significativamente de las demás observaciones. Pueden ser causados por errores de medición, errores de ingreso de datos, o pueden representar casos genuinamente inusuales que vale la pena investigar.

El punto naranja en (10, 50) es un valor atípico

La regla de 3 sigma

Para datos con distribución normal, los puntos que se encuentran más allá de 3 desvíos estándar de la media se consideran valores atípicos. Ocurren menos del 0,3% de las veces por azar.

Es valor atípico si

x < μ - 3σ OR x > μ + 3σ

Ejemplo

Si las notas de un examen tienen μ = 75 y σ = 10: - Límite inferior: 75 - 30 = 45 - Límite superior: 75 + 30 = 105 - Cualquier nota por debajo de 45 o por encima de 105 es un valor atípico

Método de la puntuación Z

Se calcula la puntuación Z para cada dato. Si |z| > 3 (o a veces 2,5), es un valor atípico.

Puntuación Z

z = (x - μ) / σ

Opciones de umbral

- |z| > 3: Conservador (detecta menos valores atípicos) - |z| > 2,5: Moderado - |z| > 2: Liberal (detecta más valores atípicos)

Método IQR (alternativa)

El método del rango intercuartílico (IQR) es más robusto ante valores atípicos porque no utiliza la media ni el desvío estándar.

1

Paso 1

Encontrar Q1 (percentil 25) y Q3 (percentil 75)
2

Paso 2

Calcular IQR = Q3 - Q1
3

Paso 3

Límite inferior = Q1 - 1,5 × IQR
4

Paso 4

Límite superior = Q3 + 1,5 × IQR
5

Paso 5

Los puntos fuera de los límites son valores atípicos

Manejo de valores atípicos

No los elimines automáticamente

Los valores atípicos no siempre son errores. Antes de eliminarlos, investigá: - ¿Es un error de ingreso de datos o de medición? - ¿Es un valor extremo genuino? - ¿Representa un caso límite importante?

Cuándo eliminarlos

- Errores de ingreso de datos confirmados - Falla del equipo de medición - Fuera del rango posible de valores

Cuándo conservarlos

- Representan variabilidad real - Son importantes para tu análisis - Eliminarlos sesgaría los resultados