プール標準偏差とは?
プール標準偏差は、2つ以上のグループの分散推定値を結合し、単一の加重推定値を得る手法です。等分散を仮定する2標本t検定では不可欠です。
考え方は単純です。2つのグループが同じ母分散を持つ母集団から来ていると考えるなら、データを結合してその共通の分散のより良い推定値を得ることができます。データが多いほど、より精密な推定になります。
こう考えてみてください。グループAから20個、グループBから30個の観測値があり、両グループの真の分散が同じである場合、小さな標本からそれぞれ推定する代わりに、50個の観測値を使って分散を推定できるのです。
プールすべき場面
プール標準偏差の公式
2つのグループの場合、プール標準偏差は次のようになります。
2群のプール標準偏差
ここでn₁とn₂は標本サイズ、s₁とs₂は各標本の標準偏差です。
k個のグループ(ANOVAなど)の場合、公式は一般化されます。
多群のプール標準偏差
公式が分子と分母の両方で(n-1)項を使用していることに注目してください。この重み付けにより、大きな標本がプール推定値により多く寄与します。大きな標本はより信頼性の高い分散推定を提供するため、これは適切な方法です。
前提となる仮定
プール標準偏差は分散の等質性—すべてのグループが同じ母分散を共有していること—を仮定します。この仮定が特に重要になるのは以下の場合です。
- 標本サイズが不等な場合(大きいグループの分散が小さい場合は特に問題)
- 最大分散と最小分散の比が2〜3を超える場合
- 標本サイズが小さい場合(大きな標本はこの仮定の違反に対してより頑健)
分散が異なる場合
計算例
シナリオ: 2つのクラスのテスト成績を比較する。
- クラスA: n₁ = 25、平均 = 78、s₁ = 12
- クラスB: n₂ = 30、平均 = 82、s₂ = 14
プール標準偏差の計算:
sp = √[((25-1)(12)² + (30-1)(14)²) / (25+30-2)] sp = √[(24×144 + 29×196) / 53] sp = √[(3456 + 5684) / 53] sp = √[9140 / 53] = √172.45 = 13.13
プール標準偏差13.13は、個々の標準偏差(12と14)の間の値で、大きい標本の方に寄った値になっています。このプール値はその後、t検定の公式やCohenのd計算に使用されます。
統計的応用
- 独立標本t検定: プール標準偏差は、平均の差の標準誤差を計算するために使用されます。
- Cohenのd効果量: 効果量はプール標準偏差で標準化されます:d = (M₁ - M₂) / sp
- 分散分析(ANOVA): ANOVAの平均2乗誤差(MSE)は、本質的にすべてのグループにわたるプール分散推定値です。
- メタ分析: 研究を統合する際、プール推定値は異なる文脈間で効果を標準化するのに役立ちます。