Due modi per misurare la dispersione
Sia l’intervallo (range) che la deviazione standard misurano la dispersione dei dati, ma catturano aspetti fondamentalmente diversi della variabilità. Sapere quando usare ciascuno è essenziale per un’analisi corretta dei dati.
L’intervallo indica gli estremi: quanto sono distanti il valore più alto e quello più basso. La deviazione standard indica la dispersione tipica attorno alla media. Entrambi sono utili, ma per scopi diversi.
Guida rapida alla scelta
Usa l’intervallo quando ti interessano gli estremi (limiti del controllo qualità, escursione termica). Usa la deviazione standard quando ti interessa la variabilità tipica e serve rigore statistico.
Definizioni e formule
Intervallo
Intervallo = Massimo - Minimo
La misura di dispersione più semplice. Considera solo due valori, indipendentemente dalla dimensione del dataset.
Deviazione standard
s = √[Σ(xᵢ - x̄)² / (n-1)]
Utilizza ogni dato per misurare la distanza media dalla media.
Confronto diretto
Vantaggi e svantaggi dell’intervallo
Vantaggi:
- Estremamente semplice da calcolare — basta una sottrazione
- Facile da comprendere e comunicare
- Mostra direttamente l’ampiezza dei dati
- Utile per controlli rapidi di qualità
Svantaggi:
- Ignora tutti i valori intermedi
- Estremamente sensibile ai valori anomali
- Tende ad aumentare con la dimensione del campione
- Statisticamente inefficiente
Vantaggi e svantaggi della DS
Vantaggi:
- Utilizza tutti i dati
- Statisticamente efficiente e robusta
- Stabile all’aumentare della dimensione del campione
- Fondamento per la statistica avanzata
Svantaggi:
- Più complessa da calcolare a mano
- Meno intuitiva per i non statistici
- Può nascondere valori estremi importanti
- Comunque influenzata dagli outlier (usare la MAD in alternativa)
Quando usare ciascuno
Usare l’intervallo quando:
- Serve una stima rapida e approssimativa della dispersione
- I valori estremi sono ciò che conta (es. escursione termica per la progettazione HVAC)
- I dati sono noti essere puliti e senza outlier
- Si comunica con un pubblico non esperto di statistica
- La dimensione del campione è piccola e fissa (stessa dimensione per tutti i confronti)
Usare la deviazione standard quando:
- Si eseguono analisi statistiche o test di ipotesi
- Si confronta la variabilità tra campioni di dimensioni diverse
- Si calcolano intervalli di confidenza o valori p
- Si valuta la variazione tipica piuttosto che gli estremi
- I dati possono contenere outlier che non dovrebbero dominare la misura
Esempi pratici
Esempio: Temperature giornaliere
Dati: 22°C, 24°C, 23°C, 23°C, 24°C, 22°C, 23°C
Intervallo: 24 - 22 = 2°C (l’escursione termica)
DS: 0,82°C (la variazione tipica giorno per giorno)
Entrambi sono utili: l’intervallo per la capacità dell’impianto HVAC, la DS per la coerenza del comfort.
Esempio: Voti con un valore anomalo
Dati: 85, 88, 87, 86, 89, 42 (uno studente non ha studiato)
Intervallo: 89 - 42 = 47 punti (dominato dall’outlier!)
DS: 17,4 punti (comunque influenzata ma meno)
L’intervallo è fuorviante in questo caso. Valuta l’uso della DS o la rimozione dell’outlier.
Considerazioni avanzate
Relazione tra intervallo e DS: Per dati con distribuzione normale, Intervallo ≈ 4-6 × DS per dimensioni campionarie tipiche. Questo consente una conversione approssimativa tra le due misure.
Scarto interquartile (IQR): Un compromesso che usa Q3 - Q1 invece di massimo - minimo. È più robusto dell’intervallo pur essendo più semplice della DS.
Buona pratica
Quando opportuno, riporta entrambe le misure. “L’escursione termica è stata di 8°C (DS = 2,3°C)” fornisce ai lettori un’informazione completa sia sugli estremi che sulla variazione tipica.