Quand utiliser l’écart type géométrique
L’écart type géométrique (GSD) est la mesure de dispersion adaptée aux données de nature multiplicative plutôt qu’additive — comme les taux de croissance, les ratios, les concentrations ou toute mesure suivant une distribution log-normale.
Prenons les rendements boursiers : un gain de 10 % suivi d’une perte de 10 % ne ramène pas à l’équilibre (on obtient 99 % du montant initial). Ces relations multiplicatives nécessitent des statistiques géométriques plutôt qu’arithmétiques.
Principe clé
Comprendre les données log-normales
Les données sont log-normales lorsque leur logarithme naturel suit une distribution normale. Exemples courants :
- Cours des actions et rendements d’investissement dans le temps
- Distributions de revenus et de patrimoine
- Tailles de particules dans les aérosols et les produits pharmaceutiques
- Comptages de colonies bactériennes et charges virales
- Concentrations de polluants environnementaux
- Titres d’anticorps et concentrations de médicaments
La caractéristique clé : les processus impliquant des multiplications répétées génèrent des distributions log-normales, tout comme les additions répétées génèrent des distributions normales.
Formule et calcul
Écart type géométrique
Ou plus simplement : prendre le logarithme naturel de toutes les valeurs, calculer l’écart type classique, puis exponentier.
Transformer les données
Calculer la moyenne
Calculer l’écart type
Rétro-transformer
import numpy as np
from scipy import stats
def geometric_sd(data):
"""Calculate geometric standard deviation"""
log_data = np.log(data)
sd_log = np.std(log_data, ddof=1)
return np.exp(sd_log)
def geometric_mean(data):
"""Calculate geometric mean"""
return stats.gmean(data)
# Example: Antibody titers (highly variable, log-normal)
titers = [64, 128, 256, 128, 512, 64, 256]
gm = geometric_mean(titers)
gsd = geometric_sd(titers)
print(f"Geometric Mean: {gm:.1f}")
print(f"Geometric SD: {gsd:.2f}")Interpréter les valeurs de GSD
Contrairement à l’écart type arithmétique qui est dans les mêmes unités que les données, le GSD est un facteur multiplicatif — un ratio. Un GSD de 2,0 signifie que les données varient typiquement d’un facteur 2.
- GSD = 1,0:Aucune variation (impossible en pratique)
- GSD ≈ 1,2:Faible variabilité (±20 % typiquement)
- GSD ≈ 2,0:Variabilité modérée (les données doublent/sont divisées par deux)
- GSD ≈ 3,0:Forte variabilité (couvre un ordre de grandeur)
Intervalles de confiance
Applications concrètes
Sciences pharmaceutiques
Finance et économie
GSD vs écart type classique
Utiliser l’écart type arithmétique sur des données log-normales donne des résultats trompeurs :
Exemple : Données de charge virale
Vérifiez toujours la distribution