Σ
SDCalc
IntermedioConcetti·12 min

Statistica robusta: MAD, IQR e metodi resistenti agli outlier

Guida completa alla statistica robusta con deviazione mediana assoluta (MAD) e scarto interquartile (IQR). Scopri quando usare misure di dispersione resistenti agli outlier con esempi e codice Python.

Perché la statistica robusta?

La deviazione standard è una misura potente della dispersione, ma ha un punto debole critico: l’estrema sensibilità ai valori anomali. Un singolo valore estremo può gonfiare drammaticamente la DS, fornendo un quadro fuorviante della variazione tipica.

La statistica robusta offre misure di dispersione che resistono all’influenza degli outlier, rendendole essenziali per i dati del mondo reale dove errori di misurazione, errori di inserimento o casi genuinamente estremi sono comuni.

Esempio: L’effetto degli outlier

Dati: 10, 12, 11, 13, 12, 11, 100 (un outlier) Deviazione standard: 32,4 (dominata dall’outlier) MAD: 1,0 (ignora l’outlier) IQR: 1,5 (ignora l’outlier)

Punto di rottura

Il “punto di rottura” di una statistica è la proporzione di dati che può essere estrema prima che la statistica diventi priva di significato. La DS ha un punto di rottura dello 0% (un outlier può invalidarla). MAD e IQR hanno punti di rottura del 50%, cioè metà dei dati può essere anomala e continuano a funzionare.

Deviazione mediana assoluta (MAD)

La MAD è la misura di dispersione più robusta. Calcola la mediana degli scarti assoluti dalla mediana:

Formula della MAD

MAD = mediana(|xᵢ - mediana(x)|)
1

Trovare la mediana

Calcolare la mediana del dataset.
2

Calcolare gli scarti

Sottrarre la mediana da ogni valore e prendere il valore assoluto.
3

Trovare la MAD

Calcolare la mediana di questi scarti assoluti.

Scalare la MAD per stimare σ: Per dati con distribuzione normale, MAD ≈ 0,6745 × σ. Per stimare la DS dalla MAD, moltiplicare per 1,4826:

Stima della DS dalla MAD

σ̂ = 1,4826 × MAD

Perché 1,4826?

Questo fattore di scala deriva dalla relazione tra MAD e DS per le distribuzioni normali. Assicura che la MAD scalata sia uno stimatore non distorto della vera deviazione standard quando i dati sono normali.

Scarto interquartile (IQR)

L’IQR misura la dispersione del 50% centrale dei dati, ovvero l’intervallo tra il 25° e il 75° percentile:

Formula dell’IQR

IQR = Q3 - Q1 = 75° percentile - 25° percentile

L’IQR è ampiamente utilizzato perché è semplice da comprendere, facile da visualizzare nei diagrammi a scatola (box plot) e costituisce la base della comune “regola 1,5×IQR” per il rilevamento degli outlier.

Scalare l’IQR per stimare σ: Per dati normali, IQR ≈ 1,35 × σ. Per stimare la DS dall’IQR:

Stima della DS dall’IQR

σ̂ = IQR / 1,35 ≈ 0,7413 × IQR

Confronto tra misure robuste

Deviazione standard

Usa tutti i dati · Più efficiente per dati normali · Molto sensibile agli outlier · Punto di rottura: 0%

MAD

Misura più robusta · Usa la mediana (non la media) · Immune a qualsiasi outlier · Punto di rottura: 50%

IQR

Facile da comprendere · Usato nei box plot · Ignora il 50% estremo · Punto di rottura: 25%

Quando usare la statistica robusta

  • Analisi esplorativa: Quando non si sa se ci sono outlier, iniziare con misure robuste
  • Problemi di qualità dei dati: Quando i dati possono contenere errori o problemi di misurazione
  • Distribuzioni a code pesanti: Quando sono attesi valori estremi (rendimenti finanziari, sinistri assicurativi)
  • Piccoli campioni: Quando gli outlier hanno un impatto sproporzionato a causa del numero ridotto di osservazioni
  • Rilevamento degli outlier: Usare la DS per rilevare gli outlier è circolare; usare IQR o MAD invece

Esempi di implementazione

Python
import numpy as np
from scipy import stats

def mad(data):
    """Median Absolute Deviation"""
    median = np.median(data)
    return np.median(np.abs(data - median))

def scaled_mad(data):
    """MAD scaled to estimate SD (for normal data)"""
    return 1.4826 * mad(data)

def iqr(data):
    """Interquartile Range"""
    return np.percentile(data, 75) - np.percentile(data, 25)

# Compare on data with outlier
data = [10, 12, 11, 13, 12, 11, 100]
print(f"SD: {np.std(data, ddof=1):.2f}")
print(f"MAD: {mad(data):.2f}")
print(f"Scaled MAD: {scaled_mad(data):.2f}")
print(f"IQR: {iqr(data):.2f}")