概述
統計學中最常見的問題之一是:“到底該除以 n 還是 n-1?”答案取決於你手上的資料是整個母體,還是只是一個樣本。
母體 (N)
當你擁有研究對象中每一個成員的資料時使用。
σ = √[Σ(x-μ)² / N]
樣本 (n-1)
當你只有來自較大母體的部分子集資料時使用。
s = √[Σ(x-x̄)² / (n-1)]
母體標準差 (σ)
母體標準差用於你擁有分析對象中每一個個體的測量值時。在實務上,這種情況相對少見。
真正的母體範例:
- 一家小公司全部 50 名員工
- 某個特定班級全部 30 名學生
- 某個已結算會計年度的所有交易紀錄
- 一個國家的完整人口普查資料
樣本標準差 (s)
樣本標準差用於你只有較大母體的一個子集資料時。這在實際分析中是更常見的情境。
樣本範例:
- 調查 1,000 位選民來預測選舉結果
- 從 10,000 件生產批次中抽測 50 件產品
- 在臨床研究中測量 200 位病患的血壓
- 分析 5 年的股價資料來預測未來波動性
貝塞爾校正詳解
貝塞爾校正是我們在計算樣本標準差時,用 (n-1) 而非 n 作為除數的原因。這個方法以德國數學家弗里德里希·貝塞爾命名,它能產生母體變異數的不偏估計值。
為什麼 (n-1) 有效
當你計算樣本平均數時,你已經“用掉”了一個自由度。樣本平均數對資料形成了一個約束——一旦你知道 n-1 個數值和平均數,最後一個數值就已經確定了。除以 (n-1) 正是為了補償這個自由度的損失。
數學上的直觀理解
樣本資料點傾向於比母體平均數更靠近樣本平均數。這使得偏差平方和系統性地偏小。
除以 (n-1) 而非 n 會稍微放大結果,補償這種低估,從而產生不偏估計值。
何時使用哪一種
| 情境 | 使用 | 除以 |
|---|---|---|
| 你擁有所有存在的資料點 | 母體標準差 (σ) | N |
| 你只是要描述手上的資料 | 母體標準差 (σ) | N |
| 你要為更大的母體做估計 | 樣本標準差 (s) | n-1 |
| 你會用標準差來做推論統計 | 樣本標準差 (s) | n-1 |
經驗法則
如果不確定,就用樣本標準差 (n-1)。這樣比較安全,因為:
- 現實中大多數資料都是樣本,不是完整母體
- 對真正的母體使用 n-1 只會稍微高估(比低估更安全)
- 當 n 很大時,兩者差異微乎其微
實務範例
範例:品質管控
一家工廠每天生產 10,000 個小零件。品管部門測試了其中 100 個,發現重量的平均值為 50g。
答案: 使用樣本標準差 (n-1),因為 100 個零件只是 10,000 個中的樣本。你是用這個樣本來估計所有零件的變異程度。
範例:班級成績
一位老師想要描述她班上 25 名學生考試成績的變異程度。她並不打算推論到其他班級。
答案: 使用母體標準差 (N),因為她擁有整個班級(她的研究母體)的所有成績,而且不需要對其他群體做推論。