概述
统计学中最常见的问题之一是:”到底应该除以 n 还是 n-1?”答案取决于你处理的是整个总体还是仅仅是一个样本。
总体 (N)
当你拥有所研究群体中每一个成员的数据时使用。
σ = √[Σ(x-μ)² / N]
样本 (n-1)
当你拥有的数据来自更大总体的一个子集时使用。
s = √[Σ(x-x̄)² / (n-1)]
总体标准差 (σ)
总体标准差在你拥有分析群体中每一个成员的测量数据时使用。这在实际中比较少见。
总体数据的典型情形:
- 一家小公司全部 50 名员工的数据
- 某个班级全部 30 名学生的数据
- 一个已结算财政年度的所有交易记录
- 一个国家的完整人口普查数据
样本标准差 (s)
样本标准差在你处理的是更大总体的一个子集时使用。这是实际分析中更常见的情况。
样本数据的典型情形:
- 调查 1,000 名选民以预测选举结果
- 从 10,000 件产品中抽检 50 件
- 在临床研究中测量 200 名患者的血压
- 分析 5 年的股票数据以预测未来波动性
贝塞尔校正详解
贝塞尔校正是我们在计算样本标准差时使用 (n-1) 而非 n 的原因。这一校正以德国数学家弗里德里希·贝塞尔命名,能够提供总体方差的无偏估计。
为什么 (n-1) 有效
当你计算样本均值时,你“用掉“了一个自由度。样本均值对数据构成约束——一旦你知道 n-1 个值和均值,最后一个值就确定了。除以 (n-1) 就是对这一自由度损失的校正。
数学直觉
样本数据点往往比靠近总体均值更靠近样本均值。这导致偏差平方和系统性地偏小。
除以 (n-1) 而非 n 会略微放大结果,从而补偿这种低估,产生无偏估计。
何时使用哪一种
| 场景 | 使用 | 除以 |
|---|---|---|
| 你拥有所有数据点 | 总体标准差 (σ) | N |
| 你只是描述手头的数据 | 总体标准差 (σ) | N |
| 你要推断更大总体的特征 | 样本标准差 (s) | n-1 |
| 你将使用标准差进行推断统计 | 样本标准差 (s) | n-1 |
经验法则
拿不准的时候,使用样本标准差 (n-1)。原因如下:
- 现实世界中的数据大多是样本而非完整总体
- 对真正的总体使用 n-1 会略微高估(比低估更安全)
- 当 n 较大时,两者的差异可以忽略不计
实际案例
案例:质量控制
一家工厂每天生产 10,000 个零件。质检部门抽检了 100 个零件,发现平均重量为 50g。
答案:使用样本标准差 (n-1),因为 100 个零件只是 10,000 个产品中的一个样本。你用这个样本来估计所有零件的变异性。
案例:班级成绩
一位老师想要描述她 25 人班级考试成绩的变异性。她并不打算将结论推广到其他班级。
答案:使用总体标准差 (N),因为她拥有整个班级(即她关注的总体)的全部成绩,且不需要对其他群体做推断。