Σ
SDCalc
PrincipianteFundamentals·9 min

¿Qué es la desviación estándar? Definición, fórmula y ejemplos

Aprende qué es la desviación estándar, cómo calcularla para muestras y poblaciones, y por qué es crucial en el análisis de datos. Domina las fórmulas hoy.

By Standard Deviation Calculator Team · Data Science Team·Published

¿Qué es la desviación estándar?

La desviación estándar es una medida estadística que cuantifica la cantidad de variación o dispersión en un conjunto de valores. Una desviación estándar baja indica que los datos tienden a estar cerca de la media (valor esperado) del conjunto, mientras que una desviación estándar alta indica que los datos están más dispersos en un rango más amplio de valores. Representada por la letra griega σ (sigma) para poblaciones y s para muestras, es uno de los conceptos más fundamentales en la estadística descriptiva.

Definición clave

La desviación estándar mide la distancia típica de cada punto de datos respecto a la media. Te indica, en promedio, cuánto varían tus datos respecto al centro.

Desviación estándar poblacional vs. muestral

Antes de calcular la desviación estándar, debes determinar si tus datos representan a toda una población o a una muestra de ella. Una población incluye a todos los miembros de un grupo específico, mientras que una muestra es un subconjunto representativo de ese grupo. Calcular la desviación estándar para una muestra requiere un ajuste matemático: usar n - 1 (grados de libertad, o df) en lugar de N, para asegurar que el resultado sea un estimador insesgado de la varianza poblacional.

Desviación estándar poblacional

Se usa cuando tienes los datos de todo el grupo. Se denota con σ. El denominador en la fórmula de la varianza es N (el tamaño total de la población).

Desviación estándar muestral

Se usa cuando tienes un subconjunto del grupo. Se denota con s. El denominador en la fórmula de la varianza es n - 1 (tamaño de la muestra menos uno) para corregir el sesgo.

Explicación de la fórmula de la desviación estándar

Las fórmulas de la desviación estándar se basan en calcular primero la varianza y luego sacar la raíz cuadrada. Este paso de la raíz cuadrada es crucial porque devuelve la medida de dispersión a las unidades originales de los datos. Los componentes clave son xᵢ (cada valor individual), μ o (la media poblacional o muestral) y N o n (el número total de valores).

DE Poblacional

σ = √[ Σ(xᵢ - μ)² / N ]

DE Muestral

s = √[ Σ(xᵢ - x̄)² / (n - 1) ]

Ejemplo de cálculo paso a paso

Calculemos la desviación estándar muestral para un pequeño conjunto de calificaciones de un examen: [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]. Siguiendo la fórmula paso a paso se revela cómo se acumula la varianza antes de sacar la raíz cuadrada final.

1

Calcular la media (x̄)

Suma todos los valores y divide entre la cantidad: (4+8+6+5+3+2+8+9+2+5) / 10 = 52 / 10 = 5.2
2

Restar la media y elevar al cuadrado

Para cada valor, encuentra la diferencia al cuadrado: (4-5.2)² = 1.44, (8-5.2)² = 7.84, (6-5.2)² = 0.64, etc.
3

Sumar las diferencias al cuadrado

Suma todos los resultados al cuadrado: 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04 = 57.6
4

Dividir entre n - 1 (grados de libertad)

Divide la suma entre el tamaño de la muestra menos uno: 57.6 / (10 - 1) = 57.6 / 9 = 6.4. Esta es la varianza muestral (σ²).
5

Sacar la raíz cuadrada

Obtén la raíz cuadrada de la varianza: √6.4 ≈ 2.53. La desviación estándar muestral es 2.53.

Cálculo de la desviación estándar en Python

Calcular la desviación estándar a mano es propenso a errores, especialmente con conjuntos de datos grandes. En la práctica, los estadísticos y científicos de datos usan lenguajes de programación como Python para calcularla al instante mediante librerías integradas.

python
import statistics

data = [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]

# Calcular la desviación estándar muestral (por defecto)
sample_sd = statistics.stdev(data)
print(f"Sample SD: {sample_sd:.2f}")

# Calcular la desviación estándar poblacional
pop_sd = statistics.pstdev(data)
print(f"Population SD: {pop_sd:.2f}")

La regla empírica y la desviación estándar

Cuando los datos siguen una distribución normal (curva de campana), la desviación estándar se vuelve increíblemente predictiva. La regla empírica, también conocida como la regla 68-95-99.7, establece que casi todos los datos caerán dentro de tres desviaciones estándar de la media. Esto permite a los analistas identificar rápidamente valores atípicos y comprender la probabilidad de que ocurra una observación específica.

Intervalo desde la mediaPorcentaje de datosAplicación
±1σ68.27%Identificar valores típicos y cotidianos
±2σ95.45%Establecer intervalos de confianza
±3σ99.73%Detectar valores atípicos extremos

Desviación estándar vs. varianza

La varianza y la desviación estándar son medidas de dispersión estrechamente relacionadas. La varianza (σ² o s²) es el promedio de las diferencias al cuadrado respecto a la media, mientras que la desviación estándar es la raíz cuadrada de la varianza. Como la varianza se expresa en unidades al cuadrado (por ejemplo, pesos al cuadrado, centímetros al cuadrado), puede ser difícil de interpretar en el contexto de los datos originales. La desviación estándar resuelve esto al convertir la medida de vuelta a las unidades originales.

Al reportar tus datos

Siempre reporta la desviación estándar junto con la media al describir tus datos. Como la DE está en las mismas unidades que la media (por ejemplo, pesos, centímetros, kilogramos), proporciona una medida intuitiva de la dispersión que tu audiencia puede entender de inmediato.

Errores comunes a evitar

Aunque la desviación estándar es una herramienta muy útil, a menudo se usa mal. Aplicar mal las fórmulas o malinterpretar lo que representa el valor puede llevar a un análisis de datos defectuoso y a conclusiones incorrectas.

  • Usar la fórmula poblacional para una muestra: Olvidar usar n - 1 para las muestras reduce artificialmente la dispersión calculada, subestimando la verdadera varianza poblacional.
  • Aplicar la DE a distribuciones no normales: La regla empírica solo aplica a distribuciones normales. Para datos muy sesgados, la DE podría no reflejar con precisión la dispersión.
  • Confundir la DE con el Error Estándar: El error estándar mide la precisión de una estimación de la media muestral, mientras que la desviación estándar mide la dispersión de los datos subyacentes en sí.

Cuidado con los valores atípicos

La desviación estándar es muy sensible a los valores atípicos extremos. Como la fórmula eleva al cuadrado las diferencias respecto a la media, un solo valor atípico desproporcionado puede inflar enormemente la desviación estándar, haciendo que los datos parezcan más variables de lo que realmente son.

Further Reading

Sources

References and further authoritative reading used in preparing this article.

  1. Wikipedia: Desviación estándar
  2. Manual electrónico de Métodos Estadísticos del NIST/SEMATECH
  3. Khan Academy: Estadística y probabilidad