Wat is gepoolde standaardafwijking?
Gepoolde standaardafwijking combineert variantieschattingen van twee of meer groepen tot een enkele, gewogen schatting. Het is essentieel voor tweeststeekproef-t-toetsen wanneer gelijke varianties worden aangenomen.
Het concept is eenvoudig: als we geloven dat twee groepen uit populaties komen met dezelfde onderliggende variabiliteit, kunnen we hun gegevens combineren voor een betere schatting van die gedeelde variabiliteit. Meer gegevens betekent een preciezere schatting.
Denk er zo over: als u 20 waarnemingen heeft van Groep A en 30 van Groep B, en beide groepen dezelfde werkelijke variantie hebben, dan heeft u nu 50 waarnemingen om die variantie te schatten in plaats van deze apart te schatten uit kleinere steekproeven.
Wanneer poolen
De formule voor gepoolde SD
Voor twee groepen is de gepoolde standaardafwijking:
Gepoolde SD voor twee groepen
Waarbij n₁ en n₂ de steekproefomvangen zijn en s₁ en s₂ de steekproefstandaardafwijkingen.
Voor k groepen (zoals bij ANOVA) generaliseert de formule:
Gepoolde SD voor meerdere groepen
Merk op dat de formule (n-1)-termen gebruikt in zowel teller als noemer. Deze weging zorgt ervoor dat grotere steekproeven meer bijdragen aan de gepoolde schatting, wat passend is omdat grotere steekproeven betrouwbaardere variantieschattingen opleveren.
Onderliggende aannames
Gepoolde standaardafwijking veronderstelt homogeniteit van varianties—dat alle groepen dezelfde populatievariantie delen. Deze aanname is het belangrijkst wanneer:
- Steekproefomvangen ongelijk zijn (vooral problematisch als de grotere groep een kleinere variantie heeft)
- De verhouding van de grootste tot de kleinste variantie groter is dan 2-3
- Steekproefomvangen klein zijn (grote steekproeven zijn robuuster tegen schendingen)
Wanneer varianties verschillen
Uitgewerkt voorbeeld
Scenario: Toetsscores vergelijken tussen twee klassen:
- Klas A: n₁ = 25, gemiddelde = 78, s₁ = 12
- Klas B: n₂ = 30, gemiddelde = 82, s₂ = 14
Berekening gepoolde SD:
sp = √[((25-1)(12)² + (30-1)(14)²) / (25+30-2)] sp = √[(24×144 + 29×196) / 53] sp = √[(3456 + 5684) / 53] sp = √[9140 / 53] = √172,45 = 13,13
De gepoolde SD van 13,13 valt tussen de individuele SD's (12 en 14), gewogen naar de grotere steekproef. Deze gepoolde waarde wordt vervolgens gebruikt in de t-toetsformule of Cohen's d-berekening.
Statistische toepassingen
- Onafhankelijke steekproeven t-toets: De gepoolde SD wordt gebruikt om de standaardfout van het verschil tussen gemiddelden te berekenen.
- Cohens d-effectgrootte: Effectgroottes worden gestandaardiseerd met de gepoolde SD: d = (M₁ - M₂) / sp
- ANOVA: De gemiddelde kwadratische fout (MSE) in ANOVA is in wezen een gepoolde variantieschatting over alle groepen.
- Meta-analyse: Bij het combineren van onderzoeken helpen gepoolde schattingen om effecten over verschillende contexten te standaardiseren.