Qu'est-ce que la variance ?
La variance (notée σ² pour une population et s² pour un échantillon) est une mesure statistique de la dispersion entre les valeurs d'un jeu de données. Elle représente la moyenne des carrés des écarts par rapport à la moyenne (μ). En élevant les écarts au carré, la variance s'assure que les déviations négatives et positives ne s'annulent pas mutuellement, fournissant ainsi une véritable mesure de la dispersion. Cependant, comme les écarts sont élevés au carré, l'unité résultante de la variance est le carré de l'unité des données d'origine, ce qui la rend un peu abstraite à interpréter directement.
Variance de la population
Unités de mesure
Qu'est-ce que l'écart type ?
L'écart type (noté σ pour une population et s pour un échantillon) est la racine carrée de la variance. Il mesure l'écart moyen entre les points de données individuels et la moyenne. Étant donné qu'il est obtenu en prenant la racine carrée de la variance, l'écart type est exprimé dans la même unité que les données d'origine, ce qui le rend beaucoup plus intuitif et interprétable pour les applications concrètes. C'est la mesure de dispersion statistique la plus couramment utilisée.
Écart type de la population
Écart type vs Variance : les différences fondamentales
Bien que les deux métriques quantifient la dispersion des données autour de la moyenne, leur relation mathématique et leur utilité pratique diffèrent considérablement. La différence fondamentale réside dans leurs unités et leur interprétabilité. L'écart type est la racine carrée de la variance, ce qui ramène la mesure de dispersion aux unités d'origine des données. La variance, étant une valeur au carré, pondère de manière disproportionnée les valeurs aberrantes, ce qui la rend très sensible aux valeurs extrêmes.
| Caractéristique | Variance (σ² / s²) | Écart type (σ / s) |
|---|---|---|
| Base mathématique | Moyenne des carrés des écarts | Racine carrée de la variance |
| Unités | Unités au carré (ex : cm², €²) | Unités d'origine (ex : cm, €) |
| Interprétabilité | Abstraite ; difficile à relier aux données | Intuitive ; correspond directement aux données |
| Sensibilité aux valeurs aberrantes | Élevée (en raison de la mise au carré) | Modérée (la racine carrée atténue l'effet) |
| Cas d'usage principal | Inférence statistique, ANOVA, Théorie du portefeuille | Statistiques descriptives, Reporting, Règle empirique |
Formules pour la population et l'échantillon
Lors du calcul de ces métriques, il faut distinguer une population d'un échantillon. Une population inclut tous les membres d'un groupe défini, tandis qu'un échantillon est un sous-ensemble de cette population. L'utilisation de la formule de l'échantillon avec un dénominateur (n - 1) — connue sous le nom de correction de Bessel — corrige le biais inhérent à l'estimation de la variance de la population à partir d'un échantillon, garantissant ainsi que l'estimateur est sans biais.
Variance de l'échantillon
Évitez le piège du n vs n-1
Quand utiliser la variance ou l'écart type
Le choix entre la variance et l'écart type dépend entièrement de votre objectif analytique. Si vous communiquez la dispersion de vos données à un public non technique, l'écart type est le grand gagnant car il s'aligne sur les unités naturelles des données. Cependant, si vous effectuez des calculs statistiques intermédiaires — comme le calcul de la statistique F dans l'ANOVA, l'évaluation des risques dans la théorie moderne du portefeuille, ou la réalisation de tests d'hypothèse — la variance est mathématiquement plus pratique.
Utilisez la variance quand...
Utilisez l'écart type quand...
Calcul de l'écart type et de la variance en Python
Le module `statistics` de Python fournit des fonctions intégrées à la fois pour la variance et l'écart type. Lors de l'utilisation de ces fonctions, il est crucial de sélectionner la bonne méthode selon que vos données représentent une population ou un échantillon.
import statistics
# Jeu de données de l'échantillon
data = [14, 18, 12, 15, 11]
# Calcul de la variance et de l'écart type de l'échantillon
sample_var = statistics.variance(data)
sample_sd = statistics.stdev(data)
# Calcul de la variance et de l'écart type de la population
pop_var = statistics.pvariance(data)
pop_sd = statistics.pstdev(data)
print(f"Sample Variance: {sample_var:.2f}")
print(f"Sample SD: {sample_sd:.2f}")
print(f"Population Variance: {pop_var:.2f}")
print(f"Population SD: {pop_sd:.2f}")Questions fréquemment posées
- La variance peut-elle être négative ? Non, la somme des carrés des écarts (xᵢ - μ)² étant toujours nulle ou positive, la variance ne peut jamais être négative.
- Pourquoi l'écart type est-il préféré à la variance pour le reporting ? L'écart type est préféré car il partage la même unité que la moyenne, ce qui le rend beaucoup plus facile à contextualiser et à interpréter avec les données brutes.
- La variance est-elle la même chose que l'erreur quadratique moyenne (MSE) ? Elles sont similaires, mais le MSE mesure généralement la différence quadratique moyenne entre les valeurs estimées et la valeur réelle, tandis que la variance mesure la dispersion autour de la moyenne. Si l'estimateur est la moyenne, le MSE est égal à la variance.
Further Reading
Sources
References and further authoritative reading used in preparing this article.