Glossaire de statistiques
Termes et définitions statistiques clés
Écart-type (σ / s)
Une mesure de la quantité de variation ou de dispersion dans un ensemble de valeurs. C'est la racine carrée de la variance et il est exprimé dans les mêmes unités que les données.
Variance (σ² / s²)
La moyenne des carrés des écarts par rapport à la moyenne. La variance quantifie le degré de dispersion dans un jeu de données et est le carré de l'écart-type.
Moyenne (μ / x̄)
La moyenne arithmétique d'un ensemble de valeurs, calculée en additionnant toutes les valeurs et en divisant par le nombre total. Elle représente la tendance centrale des données.
Médiane
La valeur du milieu dans un jeu de données trié. S'il y a un nombre pair de valeurs, la médiane est la moyenne des deux valeurs du milieu. Elle est résistante aux valeurs aberrantes.
Mode
La valeur qui apparait le plus souvent dans un jeu de données. Un jeu de données peut avoir un mode (unimodal), plusieurs modes (multimodal) ou aucun mode du tout.
Étendue
La différence entre la plus grande et la plus petite valeur dans un jeu de données. Bien que simple à calculer, elle ne considère que les deux valeurs extrêmes et est sensible aux valeurs aberrantes.
Population
L'ensemble complet de tous les individus ou observations d'intérêt dans une étude. Les paramètres de population sont généralement désignés par des lettres grecques (μ, σ).
Échantillon
Un sous-ensemble d'une population sélectionné pour analyse. Les statistiques d'échantillon sont généralement désignées par des lettres latines (x̄, s) et sont utilisées pour estimer les paramètres de la population.
Correction de Bessel
L'utilisation de n−1 au lieu de n au dénominateur lors du calcul de la variance d'échantillon. Cette correction fournit une estimation non biaisée de la variance de la population à partir d'un échantillon.
Distribution normale
Une distribution de probabilité symétrique en forme de cloche où la moyenne, la médiane et le mode sont tous égaux. Beaucoup de phénomènes naturels suivent une distribution à peu près normale.
Règle empirique (68-95-99,7)
Pour des données normalement distribuées, environ 68% des valeurs se situent dans ±1σ, 95% dans ±2σ et 99,7% dans ±3σ de la moyenne.
Score Z
Le nombre d'écarts-types entre un point de données et la moyenne, calculé comme Z = (X − μ) / σ. Les scores Z permettent de comparer des valeurs provenant de différentes distributions.
Erreur-type (SE)
L'écart-type de la distribution d'échantillonnage d'une statistique, le plus souvent la moyenne. SE = σ/√n, diminuant à mesure que la taille de l'échantillon augmente.
Intervalle de confiance
Une plage de valeurs susceptible de contenir le vrai paramètre de population avec un niveau de confiance spécifié (par ex., 95%). Des intervalles plus larges indiquent moins de précision.
Valeur aberrante
Un point de données significativement différent des autres observations. Les méthodes de détection courantes incluent les valeurs au-delà de ±2 ou ±3 écarts-types de la moyenne.
Coefficient de variation (CV)
Le rapport de l'écart-type à la moyenne, exprimé en pourcentage (CV = σ/μ × 100%). Il permet de comparer la variabilité entre des jeux de données ayant des échelles différentes.
Asymétrie
Une mesure de l'asymétrie d'une distribution de probabilité. Une asymétrie positive signifie que la queue s'étend vers la droite; une asymétrie négative signifie qu'elle s'étend vers la gauche.
Kurtosis
Une mesure de l'épaisseur des queues d'une distribution de probabilité. Un kurtosis élevé indique des queues lourdes et un pic prononcé; un kurtosis faible indique des queues légères et un pic aplati.
Degrés de liberté (df)
Le nombre de valeurs indépendantes pouvant varier dans un calcul statistique. Pour l'écart-type d'échantillon, df = n − 1, ce qui reflète la correction de Bessel.
Théorème central limite
Stipule que la distribution d'échantillonnage de la moyenne d'échantillon tend vers une distribution normale à mesure que la taille de l'échantillon augmente, peu importe la distribution de la population.
Test d'hypothèse
Une méthode statistique pour prendre des décisions basées sur les données. Elle consiste à comparer une statistique de test à une valeur critique ou une valeur p pour déterminer s'il faut rejeter l'hypothèse nulle.
Valeur p
La probabilité d'observer un résultat aussi extrême que la statistique de test, en supposant que l'hypothèse nulle est vraie. Des valeurs p plus petites fournissent des preuves plus fortes contre l'hypothèse nulle.
Coefficient de corrélation (r)
Une valeur entre −1 et 1 qui mesure la force et la direction de la relation linéaire entre deux variables. Des valeurs proches de ±1 indiquent une forte relation linéaire.
Écart interquartile (IQR)
La différence entre le 75e percentile (Q3) et le 25e percentile (Q1). L'IQR mesure la dispersion des 50% du milieu des données et est résistant aux valeurs aberrantes.
Percentile
Une valeur en dessous de laquelle un pourcentage donné d'observations se situe. Par exemple, le 90e percentile est la valeur en dessous de laquelle se trouvent 90% des points de données.