Σ
SDCalc
IntermedioAplicaciones·9 min

Detección de Valores Atípicos con Desviación Estándar

Aprende a identificar valores atípicos en tus datos usando la desviación estándar. Domina la regla de 3 sigma, el método IQR y entiende cuándo deben eliminarse los valores atípicos.

¿Qué Son los Valores Atípicos?

Los valores atípicos son puntos de datos que difieren significativamente de otras observaciones. Pueden ser causados por errores de medición, errores en la captura de datos, o pueden representar casos genuinamente inusuales que vale la pena investigar.

El punto naranja en (10, 50) es un valor atípico

La Regla de 3 Sigma

Para datos con distribución normal, los puntos más allá de 3 desviaciones estándar de la media se consideran valores atípicos. Ocurren menos del 0.3% del tiempo por azar.

Es valor atípico si

x < μ - 3σ OR x > μ + 3σ

Ejemplo

Si las calificaciones tienen μ = 75 y σ = 10: - Límite inferior: 75 - 30 = 45 - Límite superior: 75 + 30 = 105 - Cualquier calificación por debajo de 45 o por encima de 105 es un valor atípico

Método de Puntuación Z

Calcula la puntuación z para cada dato. Si |z| > 3 (o a veces 2.5), es un valor atípico.

Puntuación Z

z = (x - μ) / σ

Opciones de Umbral

- |z| > 3: Conservador (detecta menos valores atípicos) - |z| > 2.5: Moderado - |z| > 2: Liberal (detecta más valores atípicos)

Método IQR (Alternativa)

El método del Rango Intercuartílico (IQR) es más robusto ante valores atípicos porque no usa la media ni la desviación estándar.

1

Paso 1

Encontrar Q1 (percentil 25) y Q3 (percentil 75)
2

Paso 2

Calcular IQR = Q3 - Q1
3

Paso 3

Cerca inferior = Q1 - 1.5 × IQR
4

Paso 4

Cerca superior = Q3 + 1.5 × IQR
5

Paso 5

Los puntos fuera de las cercas son valores atípicos

Manejo de Valores Atípicos

¡No los Elimines Automáticamente!

Los valores atípicos no siempre son errores. Antes de eliminarlos, investiga: - ¿Es un error de captura de datos o de medición? - ¿Es un valor extremo genuino? - ¿Representa un caso límite importante?

Cuándo Eliminar

- Errores confirmados de captura de datos - Mal funcionamiento del equipo de medición - Fuera del rango posible de valores

Cuándo Conservar

- Representa variabilidad real - Es importante para tu análisis - Eliminarlo sesgaría los resultados