Che cos’è la deviazione standard combinata?
La deviazione standard combinata (pooled) unisce le stime di varianza di due o più gruppi per ottenere una stima singola e ponderata. È essenziale nei test t per due campioni quando si assume l’uguaglianza delle varianze.
Il concetto è intuitivo: se crediamo che due gruppi provengano da popolazioni con la stessa variabilità di fondo, possiamo combinare i loro dati per ottenere una stima migliore di quella variabilità condivisa. Più dati significano una stima più precisa.
Pensiamola così: se si hanno 20 osservazioni dal Gruppo A e 30 dal Gruppo B, ed entrambi i gruppi hanno la stessa vera varianza, ora si hanno 50 osservazioni per stimare quella varianza anziché stimarla separatamente da campioni più piccoli.
Quando combinare
La formula della DS combinata
Per due gruppi, la deviazione standard combinata è:
DS combinata per due gruppi
Dove n₁ e n₂ sono le dimensioni dei campioni, e s₁ e s₂ sono le deviazioni standard campionarie.
Per k gruppi (come nell’ANOVA), la formula si generalizza:
DS combinata per più gruppi
Si noti che la formula usa i termini (n-1) sia al numeratore che al denominatore. Questa ponderazione assicura che i campioni più grandi contribuiscano maggiormente alla stima combinata, il che è appropriato poiché campioni più grandi forniscono stime di varianza più affidabili.
Assunzioni di base
La deviazione standard combinata presuppone l’omogeneità delle varianze, ovvero che tutti i gruppi condividano la stessa varianza della popolazione. Questa assunzione è più rilevante quando:
- Le dimensioni dei campioni sono diseguali (particolarmente problematico se il gruppo più grande ha la varianza minore)
- Il rapporto tra la varianza maggiore e quella minore supera 2-3
- Le dimensioni dei campioni sono piccole (campioni grandi sono più robusti alle violazioni)
Quando le varianze differiscono
Esempio svolto
Scenario: Confronto dei punteggi di un test tra due classi:
- Classe A: n₁ = 25, media = 78, s₁ = 12
- Classe B: n₂ = 30, media = 82, s₂ = 14
Calcolo della DS combinata:
sp = √[((25-1)(12)² + (30-1)(14)²) / (25+30-2)] sp = √[(24×144 + 29×196) / 53] sp = √[(3456 + 5684) / 53] sp = √[9140 / 53] = √172,45 = 13,13
La DS combinata di 13,13 si colloca tra le singole DS (12 e 14), più vicina al campione più grande. Questo valore combinato verrebbe poi usato nella formula del test t o nel calcolo della d di Cohen.
Applicazioni statistiche
- Test t per campioni indipendenti: La DS combinata è usata per calcolare l’errore standard della differenza tra le medie.
- d di Cohen per la dimensione dell’effetto: Le dimensioni dell’effetto sono standardizzate usando la DS combinata: d = (M₁ - M₂) / sp
- ANOVA: Il quadrato medio dell’errore (MSE) nell’ANOVA è essenzialmente una stima della varianza combinata tra tutti i gruppi.
- Meta-analisi: Quando si combinano gli studi, le stime combinate aiutano a standardizzare gli effetti in contesti diversi.