Σ
SDCalc
ŚredniozaawansowanyPojęcia·12 min

Statystyka odporna: MAD, IQR i metody odporne na outliers

Kompletny przewodnik po statystyce odpornej, w tym mediana bezwzględnych odchyleń (MAD) i rozstęp międzykwartylowy (IQR). Kiedy stosować miary odporne na wartości odstające z przykładami i kodem Python.

Dlaczego statystyka odporna?

Odchylenie standardowe jest potężną miarą rozproszenia, ale ma krytyczną słabość: skrajną wrażliwość na wartości odstające. Pojedyncza wartość ekstremalna może dramatycznie zawyżyć odchylenie, dając mylący obraz typowej zmienności.

Statystyka odporna dostarcza miar rozproszenia odpornych na wpływ wartości odstających, co czyni ją niezbędną w pracy z danymi rzeczywistymi, gdzie błędy pomiarowe, pomyłki przy wprowadzaniu danych czy autentyczne przypadki ekstremalne są powszechne.

Przykład: Efekt wartości odstającej

Dane: 10, 12, 11, 13, 12, 11, 100 (jedna wartość odstająca) Odchylenie standardowe: 32,4 (zdominowane przez outlier) MAD: 1,0 (ignoruje outlier) IQR: 1,5 (ignoruje outlier)

Punkt załamania

“Punkt załamania” statystyki to odsetek danych, który może być ekstremalny, zanim statystyka stanie się bezwartościowa. Odchylenie standardowe ma punkt załamania 0% (jeden outlier może je zniszczyć). MAD i IQR mają punkt załamania 50% — połowa danych może być wartościami odstającymi, a one nadal działają.

Mediana bezwzględnych odchyleń (MAD)

MAD jest najbardziej odporną miarą rozproszenia. Oblicza medianę wartości bezwzględnych odchyleń od mediany:

Wzór na MAD

MAD = median(|xᵢ - median(x)|)
1

Znajdź medianę

Oblicz medianę zbioru danych.
2

Oblicz odchylenia

Odejmij medianę od każdej wartości i weź wartości bezwzględne.
3

Znajdź MAD

Oblicz medianę tych bezwzględnych odchyleń.

Skalowanie MAD do oszacowania σ: Dla danych o rozkładzie normalnym MAD ≈ 0,6745 × σ. Aby oszacować odchylenie standardowe z MAD, pomnóż przez 1,4826:

Oszacowanie SD z MAD

σ̂ = 1,4826 × MAD

Dlaczego 1,4826?

Ten współczynnik skalujący wynika ze związku między MAD a odchyleniem standardowym dla rozkładu normalnego. Zapewnia, że przeskalowany MAD jest nieobciążonym estymatorem prawdziwego odchylenia standardowego, gdy dane mają rozkład normalny.

Rozstęp międzykwartylowy (IQR)

IQR mierzy rozproszenie środkowych 50% danych — rozstęp między 25. a 75. percentylem:

Wzór na IQR

IQR = Q3 - Q1 = 75. percentyl - 25. percentyl

IQR jest szeroko stosowany, ponieważ jest prosty do zrozumienia, łatwy do wizualizacji na wykresach pudełkowych i stanowi podstawę powszechnej “reguły 1,5×IQR” do wykrywania wartości odstających.

Skalowanie IQR do oszacowania σ: Dla danych normalnych IQR ≈ 1,35 × σ. Aby oszacować SD z IQR:

Oszacowanie SD z IQR

σ̂ = IQR / 1,35 ≈ 0,7413 × IQR

Porównanie miar odpornych

Odchylenie standardowe

Wykorzystuje wszystkie punkty danych · Najbardziej efektywne dla danych normalnych · Bardzo wrażliwe na outliers · Punkt załamania: 0%

MAD

Najbardziej odporna miara · Używa mediany (nie średniej) · Odporne na wartości odstające · Punkt załamania: 50%

IQR

Łatwy do zrozumienia · Używany w wykresach pudełkowych · Ignoruje skrajne 50% · Punkt załamania: 25%

Kiedy stosować statystykę odporną

  • Analiza eksploracyjna: Gdy nie wiesz, czy istnieją wartości odstające, zacznij od miar odpornych
  • Problemy z jakością danych: Gdy dane mogą zawierać błędy lub problemy pomiarowe
  • Rozkłady gruboogonowe: Gdy oczekuje się wartości ekstremalnych (stopy zwrotu, roszczenia ubezpieczeniowe)
  • Małe próbki: Gdy wartości odstające mają nadmierny wpływ z powodu nielicznych obserwacji
  • Wykrywanie outliers: Używanie odchylenia standardowego do wykrywania outliers jest kołowe; zamiast tego użyj IQR lub MAD

Implementacja

Python
import numpy as np
from scipy import stats

def mad(data):
    """Median Absolute Deviation"""
    median = np.median(data)
    return np.median(np.abs(data - median))

def scaled_mad(data):
    """MAD scaled to estimate SD (for normal data)"""
    return 1.4826 * mad(data)

def iqr(data):
    """Interquartile Range"""
    return np.percentile(data, 75) - np.percentile(data, 25)

# Compare on data with outlier
data = [10, 12, 11, 13, 12, 11, 100]
print(f"SD: {np.std(data, ddof=1):.2f}")
print(f"MAD: {mad(data):.2f}")
print(f"Scaled MAD: {scaled_mad(data):.2f}")
print(f"IQR: {iqr(data):.2f}")