Dlaczego statystyka odporna?
Odchylenie standardowe jest potężną miarą rozproszenia, ale ma krytyczną słabość: skrajną wrażliwość na wartości odstające. Pojedyncza wartość ekstremalna może dramatycznie zawyżyć odchylenie, dając mylący obraz typowej zmienności.
Statystyka odporna dostarcza miar rozproszenia odpornych na wpływ wartości odstających, co czyni ją niezbędną w pracy z danymi rzeczywistymi, gdzie błędy pomiarowe, pomyłki przy wprowadzaniu danych czy autentyczne przypadki ekstremalne są powszechne.
Przykład: Efekt wartości odstającej
Punkt załamania
Mediana bezwzględnych odchyleń (MAD)
MAD jest najbardziej odporną miarą rozproszenia. Oblicza medianę wartości bezwzględnych odchyleń od mediany:
Wzór na MAD
Znajdź medianę
Oblicz odchylenia
Znajdź MAD
Skalowanie MAD do oszacowania σ: Dla danych o rozkładzie normalnym MAD ≈ 0,6745 × σ. Aby oszacować odchylenie standardowe z MAD, pomnóż przez 1,4826:
Oszacowanie SD z MAD
Dlaczego 1,4826?
Rozstęp międzykwartylowy (IQR)
IQR mierzy rozproszenie środkowych 50% danych — rozstęp między 25. a 75. percentylem:
Wzór na IQR
IQR jest szeroko stosowany, ponieważ jest prosty do zrozumienia, łatwy do wizualizacji na wykresach pudełkowych i stanowi podstawę powszechnej “reguły 1,5×IQR” do wykrywania wartości odstających.
Skalowanie IQR do oszacowania σ: Dla danych normalnych IQR ≈ 1,35 × σ. Aby oszacować SD z IQR:
Oszacowanie SD z IQR
Porównanie miar odpornych
Odchylenie standardowe
MAD
IQR
Kiedy stosować statystykę odporną
- Analiza eksploracyjna: Gdy nie wiesz, czy istnieją wartości odstające, zacznij od miar odpornych
- Problemy z jakością danych: Gdy dane mogą zawierać błędy lub problemy pomiarowe
- Rozkłady gruboogonowe: Gdy oczekuje się wartości ekstremalnych (stopy zwrotu, roszczenia ubezpieczeniowe)
- Małe próbki: Gdy wartości odstające mają nadmierny wpływ z powodu nielicznych obserwacji
- Wykrywanie outliers: Używanie odchylenia standardowego do wykrywania outliers jest kołowe; zamiast tego użyj IQR lub MAD
Implementacja
import numpy as np
from scipy import stats
def mad(data):
"""Median Absolute Deviation"""
median = np.median(data)
return np.median(np.abs(data - median))
def scaled_mad(data):
"""MAD scaled to estimate SD (for normal data)"""
return 1.4826 * mad(data)
def iqr(data):
"""Interquartile Range"""
return np.percentile(data, 75) - np.percentile(data, 25)
# Compare on data with outlier
data = [10, 12, 11, 13, 12, 11, 100]
print(f"SD: {np.std(data, ddof=1):.2f}")
print(f"MAD: {mad(data):.2f}")
print(f"Scaled MAD: {scaled_mad(data):.2f}")
print(f"IQR: {iqr(data):.2f}")