¿Qué es el desvío estándar?
El desvío estándar es una medida estadística que cuantifica la cantidad de variación o dispersión en un conjunto de datos. Un desvío estándar bajo indica que los valores tienden a estar cerca de la media (valor esperado) del conjunto, mientras que un desvío alto indica que los datos están más dispersos. Se representa con la letra griega σ (sigma) para poblaciones y con s para muestras, y es uno de los conceptos más fundamentales de la estadística descriptiva.
Definición clave
Desvío estándar poblacional vs. muestral
Antes de calcular el desvío estándar, tenés que determinar si tus datos representan a toda una población o a una muestra de ella. Una población incluye a todos los miembros de un grupo definido, mientras que una muestra es un subconjunto representativo de ese grupo. Calcular el desvío estándar de una muestra requiere un ajuste matemático: usar n - 1 (grados de libertad, o df) en lugar de N, para asegurar que el resultado sea un estimador insesgado de la varianza poblacional.
Desvío estándar poblacional
Desvío estándar muestral
Explicación de la fórmula del desvío estándar
Las fórmulas del desvío estándar se basan en calcular primero la varianza y luego sacar la raíz cuadrada. Este paso es clave porque devuelve la medida de dispersión a las unidades originales de los datos. Los componentes principales son xᵢ (cada valor individual), μ o x̄ (la media poblacional o muestral) y N o n (la cantidad total de valores).
Desvío poblacional
Desvío muestral
Ejemplo de cálculo paso a paso
Vamos a calcular el desvío estándar muestral para un conjunto pequeño de notas de un examen: [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]. Siguiendo la fórmula paso a paso, se ve cómo se acumula la varianza antes de sacar la raíz cuadrada final.
Calculá la media (x̄)
Restá la media y elevá al cuadrado
Sumá las diferencias al cuadrado
Dividí por n - 1 (grados de libertad)
Sacá la raíz cuadrada
Cálculo del desvío estándar en Python
Calcular el desvío estándar a mano es propenso a errores, sobre todo con conjuntos de datos grandes. En la práctica, los estadísticos y científicos de datos usan lenguajes de programación como Python para calcularlo al instante usando librerías nativas.
import statistics
data = [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]
# Calcular el desvío estándar muestral (por defecto)
sample_sd = statistics.stdev(data)
print(f"Sample SD: {sample_sd:.2f}")
# Calcular el desvío estándar poblacional
pop_sd = statistics.pstdev(data)
print(f"Population SD: {pop_sd:.2f}")La regla empírica y el desvío estándar
Cuando los datos siguen una distribución normal (campana de Gauss), el desvío estándar se vuelve muy predictivo. La regla empírica, también conocida como regla 68-95-99.7, establece que casi todos los datos caerán dentro de tres desvíos estándar de la media. Esto permite a los analistas identificar rápidamente valores atípicos (outliers) y entender la probabilidad de que ocurra una observación específica.
| Intervalo desde la media | Porcentaje de datos | Aplicación |
|---|---|---|
| ±1σ | 68.27% | Identificar valores típicos y cotidianos |
| ±2σ | 95.45% | Construir intervalos de confianza |
| ±3σ | 99.73% | Detectar valores atípicos extremos |
Desvío estándar vs. Varianza
La varianza y el desvío estándar son medidas de dispersión estrechamente relacionadas. La varianza (σ² o s²) es el promedio de las diferencias al cuadrado respecto a la media, mientras que el desvío estándar es la raíz cuadrada de la varianza. Como la varianza se expresa en unidades al cuadrado (por ejemplo, pesos al cuadrado, centímetros al cuadrado), puede ser difícil de interpretar en el contexto de los datos originales. El desvío estándar resuelve esto al convertir la medida de vuelta a las unidades originales.
Al reportar tus datos
Errores comunes a evitar
Si bien el desvío estándar es una herramienta poderosa, suele usarse mal. Aplicar las fórmulas de forma incorrecta o malinterpretar lo que representa el valor puede llevar a un análisis de datos defectuoso y a conclusiones erróneas.
- Usar la fórmula poblacional para una muestra: Olvidar usar n - 1 en las muestras reduce artificialmente la dispersión calculada, subestimando la verdadera varianza poblacional.
- Aplicar el desvío a distribuciones no normales: La regla empírica solo aplica a distribuciones normales. Para datos muy asimétricos, el desvío podría no reflejar con precisión la dispersión.
- Confundir el desvío con el error estándar: El error estándar mide la precisión de la estimación de la media muestral, mientras que el desvío estándar mide la dispersión de los datos subyacentes en sí.
Ojo con los valores atípicos
Further Reading
Sources
References and further authoritative reading used in preparing this article.