概述
统计学中最常见的问题之一是:”到底应该除以 n 还是 n-1?”答案取决于你处理的是整个总体还是仅仅是一个样本。
总体 (N)
样本 (n-1)
总体标准差 (σ)
总体标准差在你拥有分析群体中每一个成员的测量数据时使用。这在实际中比较少见。
总体数据的典型情形:
- 一家小公司全部 50 名员工的数据
- 某个班级全部 30 名学生的数据
- 一个已结算财政年度的所有交易记录
- 一个国家的完整人口普查数据
样本标准差 (s)
样本标准差在你处理的是更大总体的一个子集时使用。这是实际分析中更常见的情况。
样本数据的典型情形:
- 调查 1,000 名选民以预测选举结果
- 从 10,000 件产品中抽检 50 件
- 在临床研究中测量 200 名患者的血压
- 分析 5 年的股票数据以预测未来波动性
贝塞尔校正详解
贝塞尔校正是我们在计算样本标准差时使用 (n-1) 而非 n 的原因。这一校正以德国数学家弗里德里希·贝塞尔命名,能够提供总体方差的无偏估计。
为什么 (n-1) 有效
数学直觉
样本数据点往往比靠近总体均值更靠近样本均值。这导致偏差平方和系统性地偏小。
除以 (n-1) 而非 n 会略微放大结果,从而补偿这种低估,产生无偏估计。
何时使用哪一种
| 场景 | 使用 | 除以 |
|---|---|---|
| 你拥有所有数据点 | 总体标准差 (σ) | N |
| 你只是描述手头的数据 | 总体标准差 (σ) | N |
| 你要推断更大总体的特征 | 样本标准差 (s) | n-1 |
| 你将使用标准差进行推断统计 | 样本标准差 (s) | n-1 |
经验法则