概要
統計学でもっともよくある疑問のひとつが、「nで割るべきか、n-1で割るべきか?」です。その答えは、母集団全体を扱っているのか、それとも標本だけを扱っているのかによります。
母集団 (N)
対象グループの全メンバーのデータがある場合に使用します。
σ = √[Σ(x-μ)² / N]
標本 (n-1)
より大きな母集団の一部のデータを扱う場合に使用します。
s = √[Σ(x-x̄)² / (n-1)]
母集団の標準偏差 (σ)
母集団の標準偏差は、分析対象となるグループの全メンバーの測定値がある場合に使用します。実際にはかなり稀なケースです。
母集団の具体例:
- 小規模企業の全社員50人
- 特定クラスの全生徒30人
- 終了した会計年度の全取引
- ある国の完全な国勢調査データ
標本の標準偏差 (s)
標本の標準偏差は、より大きな母集団の一部を扱う場合に使用します。実際の分析では、こちらの方がはるかに一般的です。
標本の具体例:
- 選挙結果を予測するために1,000人の有権者を調査
- 10,000個のロットから50個の製品を検査
- 臨床研究で200人の患者の血圧を測定
- 将来のボラティリティを予測するために5年分の株価データを分析
ベッセルの補正とは
ベッセルの補正とは、標本標準偏差を計算する際にnではなく(n-1)で割る理由です。ドイツの数学者フリードリヒ・ベッセルにちなんで名付けられたこの補正は、母集団分散の不偏推定量を得るためのものです。
なぜ (n-1) が有効なのか
標本平均を計算すると、自由度が1つ「消費」されます。標本平均がデータを制約するため、n-1個の値と平均がわかれば、最後の値は自動的に決まります。(n-1)で割ることで、この自由度の損失を補正しています。
数学的な直感
標本のデータ点は、真の母集団平均よりも標本平均の方に近くなる傾向があります。そのため、2乗偏差の合計は本来あるべき値よりも系統的に小さくなります。
nではなく(n-1)で割ることで結果がわずかに大きくなり、この過小推定を補正して不偏推定量を得ることができます。
どちらを使うべきか
| シナリオ | 使用する公式 | 割る数 |
|---|---|---|
| 存在するすべてのデータがある | 母集団の標準偏差 (σ) | N |
| 手元のデータのみを記述したい | 母集団の標準偏差 (σ) | N |
| より大きな母集団について推定したい | 標本の標準偏差 (s) | n-1 |
| 推測統計に標準偏差を使用する | 標本の標準偏差 (s) | n-1 |
迷ったときの目安
判断に迷った場合は、標本標準偏差 (n-1) を使いましょう。その方が安全な理由は以下の通りです。
- 実世界のデータのほとんどは完全な母集団ではなく標本である
- 真の母集団にn-1を使っても過大推定するだけで(過小推定よりは安全)
- nが大きい場合、差はほとんど無視できる
実践例
例:品質管理
ある工場では1日に10,000個のウィジェットを製造しています。品質管理で100個を検査したところ、重量の平均が50gでした。
回答: 標本標準偏差 (n-1) を使います。100個は製造された10,000個の標本だからです。この標本を使って全ウィジェットのばらつきを推定します。
例:クラスの成績
ある教師が25人のクラスのテスト成績のばらつきを把握したいと考えています。他のクラスに一般化するつもりはありません。
回答: 母集団の標準偏差 (N) を使います。対象とする母集団(自分のクラス)全員の成績を持っており、他のグループへの推測は行わないからです。