Qu'est-ce que l'écart type ?
L'écart type est une mesure statistique qui quantifie l'ampleur de la variation ou de la dispersion dans un ensemble de valeurs. Un écart type faible indique que les données tendent à être proches de la moyenne (espérance mathématique) de l'ensemble, tandis qu'un écart type élevé indique que les valeurs sont étalées sur une plage plus large. Représenté par la lettre grecque σ (sigma) pour les populations et s pour les échantillons, c'est l'un des concepts les plus fondamentaux en statistiques descriptives.
Définition clé
Écart type de population vs échantillon
Avant de calculer l'écart type, vous devez déterminer si vos données représentent une population entière ou un échantillon d'une population. Une population inclut tous les membres d'un groupe spécifié, tandis qu'un échantillon est un sous-ensemble représentatif de ce groupe. Le calcul de l'écart type pour un échantillon nécessite un ajustement mathématique — utiliser n - 1 (degrés de liberté, ou df) au lieu de N — pour garantir que le résultat soit un estimateur sans biais de la variance de la population.
Écart type de population
Écart type d'échantillon
Explication de la formule de l'écart type
Les formules de l'écart type reposent sur le calcul préalable de la variance, puis sur l'extraction de la racine carrée. Cette étape de racine carrée est cruciale car elle ramène la mesure de dispersion dans les unités d'origine des données. Les composants clés sont xᵢ (chaque valeur individuelle), μ ou x̄ (la moyenne de la population ou de l'échantillon), et N ou n (le nombre total de valeurs).
Écart type de population
Écart type d'échantillon
Exemple de calcul étape par étape
Calculons l'écart type d'échantillon pour un petit jeu de données de notes à un examen : [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]. En suivant la formule étape par étape, on voit comment la variance s'accumule avant que l'on ne prenne la racine carrée finale.
Calculer la moyenne (x̄)
Soustraire la moyenne et élever au carré
Additionner les écarts au carré
Diviser par n - 1 (Degrés de liberté)
Prendre la racine carrée
Calcul de l'écart type en Python
Le calcul manuel de l'écart type est source d'erreurs, en particulier avec de grands jeux de données. En pratique, les statisticiens et les data scientists utilisent des langages de programmation comme Python pour le calculer instantanément à l'aide de bibliothèques intégrées.
import statistics
data = [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]
# Calcul de l'écart type de l'échantillon (par défaut)
sample_sd = statistics.stdev(data)
print(f"Sample SD: {sample_sd:.2f}")
# Calcul de l'écart type de la population
pop_sd = statistics.pstdev(data)
print(f"Population SD: {pop_sd:.2f}")La règle empirique et l'écart type
Lorsque les données suivent une distribution normale (courbe en cloche), l'écart type devient extrêmement prédictif. La règle empirique, également connue sous le nom de règle 68-95-99,7, stipule que la quasi-totalité des données se situera à moins de trois écarts types de la moyenne. Cela permet aux analystes d'identifier rapidement les valeurs aberrantes et de comprendre la probabilité d'apparition d'une observation spécifique.
| Intervalle depuis la moyenne | Pourcentage des données | Application |
|---|---|---|
| ±1σ | 68,27 % | Identifier les valeurs typiques du quotidien |
| ±2σ | 95,45 % | Définir des intervalles de confiance |
| ±3σ | 99,73 % | Détecter les valeurs aberrantes extrêmes |
Écart type vs Variance
La variance et l'écart type sont des mesures de dispersion étroitement liées. La variance (σ² ou s²) est la moyenne des carrés des écarts à la moyenne, tandis que l'écart type est la racine carrée de la variance. Étant donné que la variance s'exprime en unités carrées (par exemple, des euros au carré, des centimètres carrés), elle peut être difficile à interpréter dans le contexte des données d'origine. L'écart type résout ce problème en reconvertissant la mesure dans les unités de départ.
Présenter vos données
Pièges courants à éviter
Bien que l'écart type soit un outil puissant, il est souvent mal utilisé. Une mauvaise application des formules ou une mauvaise compréhension de ce que la valeur représente peut conduire à des analyses de données erronées et à des conclusions incorrectes.
- Utiliser la formule de population pour un échantillon : Oublier d'utiliser n - 1 pour les échantillons réduit artificiellement la dispersion calculée, sous-estimant ainsi la véritable variance de la population.
- Appliquer l'écart type à des distributions non normales : La règle empirique ne s'applique qu'aux distributions normales. Pour des données fortement asymétriques, l'écart type peut ne pas refléter fidèlement la dispersion.
- Confondre l'écart type avec l'erreur type : L'erreur type mesure la précision de l'estimation d'une moyenne d'échantillon, tandis que l'écart type mesure la dispersion des données sous-jacentes elles-mêmes.
Attention aux valeurs aberrantes
Further Reading
Sources
References and further authoritative reading used in preparing this article.