Mi az összesített szórás?
Az összesített szórás két vagy több csoport varianciabecsléseit kombinálja egyetlen, súlyozott becsléssé. Nélkülözhetetlen a kétmintás t-próbához, amikor egyenlő varianciákat feltételezünk.
Az alapgondolat egyszerű: ha úgy véljük, hogy két csoport azonos mögöttes változékonyságú populációból származik, az adataikat összevonva jobb becslést kaphatunk erről a közös változékonyságról. Több adat pontosabb becslést jelent.
Gondolj erre így: ha 20 megfigyelésed van az A csoportból és 30 a B csoportból, és mindkét csoportnak azonos a valódi varianciája, most 50 megfigyelésed van ennek a varianciának a becslésére ahelyett, hogy kisebb mintákból külön-külön becsülnéd.
Mikor összesítsünk?
Az összesített szórás képlete
Két csoportra az összesített szórás:
Two-Group Pooled SD
Ahol n₁ és n₂ a mintaméretek, s₁ és s₂ pedig a mintaszórások.
k csoport esetén (mint az ANOVA-ban) a képlet általánosítható:
Multi-Group Pooled SD
Figyeld meg, hogy a képlet (n-1) tagokat használ mind a számlálóban, mind a nevezőben. Ez a súlyozás biztosítja, hogy a nagyobb minták jobban hozzájáruljanak az összesített becsléshez, ami helyénvaló, mert a nagyobb minták megbízhatóbb varianciabecsléseket adnak.
Mögöttes feltételezések
Az összesített szórás feltételezi a varianciahomogenitást – azt, hogy minden csoport azonos populációs varianciával rendelkezik. Ez a feltételezés a következő esetekben a legkritikusabb:
- Egyenlőtlen mintaméretek (különösen problémás, ha a nagyobb csoportnak kisebb a varianciája)
- A legnagyobb és legkisebb variancia aránya meghaladja a 2-3-at
- Kis mintaméretek (a nagy minták robusztusabbak a sérülésekkel szemben)
Ha a varianciák eltérnek
Kidolgozott példa
Feladat: Két osztály teszteredményeinek összehasonlítása:
- A osztály: n₁ = 25, átlag = 78, s₁ = 12
- B osztály: n₂ = 30, átlag = 82, s₂ = 14
Az összesített szórás kiszámítása:
sp = √[((25-1)(12)² + (30-1)(14)²) / (25+30-2)] sp = √[(24×144 + 29×196) / 53] sp = √[(3456 + 5684) / 53] sp = √[9140 / 53] = √172,45 = 13,13
A 13,13-as összesített szórás az egyéni szórások (12 és 14) közé esik, a nagyobb minta felé súlyozva. Ezt az összesített értéket használjuk ezután a t-próba képletében vagy a Cohen-féle d kiszámításában.
Statisztikai alkalmazások
- Független mintás t-próba: Az összesített szórás szolgál az átlagkülönbség sztenderd hibájának kiszámítására.
- Cohen-féle d hatásméret: A hatásméretet az összesített szórással standardizáljuk: d = (M₁ - M₂) / sp
- ANOVA: Az ANOVA átlagos négyzetes hibája (MSE) lényegében egy összesített variancia-becslés az összes csoporton keresztül.
- Metaanalízis: Vizsgálatok kombinálásánál az összesített becslések segítenek a hatások különböző kontextusok közötti standardizálásában.