Σ
SDCalc
进阶概念·8 min

样本标准差与总体标准差:如何选择

了解样本标准差和总体标准差的区别。理解贝塞尔校正,掌握何时使用 n-1 与 n,并附清晰示例。

概述

统计学中最常见的问题之一是:”到底应该除以 n 还是 n-1?”答案取决于你处理的是整个总体还是仅仅是一个样本。

总体 (N)

当你拥有所研究群体中每一个成员的数据时使用。 σ = √[Σ(x-μ)² / N]

样本 (n-1)

当你拥有的数据来自更大总体的一个子集时使用。 s = √[Σ(x-x̄)² / (n-1)]

总体标准差 (σ)

总体标准差在你拥有分析群体中每一个成员的测量数据时使用。这在实际中比较少见。

总体数据的典型情形:

  • 一家小公司全部 50 名员工的数据
  • 某个班级全部 30 名学生的数据
  • 一个已结算财政年度的所有交易记录
  • 一个国家的完整人口普查数据

样本标准差 (s)

样本标准差在你处理的是更大总体的一个子集时使用。这是实际分析中更常见的情况。

样本数据的典型情形:

  • 调查 1,000 名选民以预测选举结果
  • 从 10,000 件产品中抽检 50 件
  • 在临床研究中测量 200 名患者的血压
  • 分析 5 年的股票数据以预测未来波动性

贝塞尔校正详解

贝塞尔校正是我们在计算样本标准差时使用 (n-1) 而非 n 的原因。这一校正以德国数学家弗里德里希·贝塞尔命名,能够提供总体方差的无偏估计

为什么 (n-1) 有效

当你计算样本均值时,你“用掉“了一个自由度。样本均值对数据构成约束——一旦你知道 n-1 个值和均值,最后一个值就确定了。除以 (n-1) 就是对这一自由度损失的校正。

数学直觉

样本数据点往往比靠近总体均值更靠近样本均值。这导致偏差平方和系统性地偏小。

除以 (n-1) 而非 n 会略微放大结果,从而补偿这种低估,产生无偏估计。

何时使用哪一种

场景使用除以
你拥有所有数据点总体标准差 (σ)N
你只是描述手头的数据总体标准差 (σ)N
你要推断更大总体的特征样本标准差 (s)n-1
你将使用标准差进行推断统计样本标准差 (s)n-1

经验法则

拿不准的时候,使用样本标准差 (n-1)。原因如下: - 现实世界中的数据大多是样本而非完整总体 - 对真正的总体使用 n-1 会略微高估(比低估更安全) - 当 n 较大时,两者的差异可以忽略不计

实际案例

案例:质量控制

一家工厂每天生产 10,000 个零件。质检部门抽检了 100 个零件,发现平均重量为 50g。 答案:使用样本标准差 (n-1),因为 100 个零件只是 10,000 个产品中的一个样本。你用这个样本来估计所有零件的变异性。

案例:班级成绩

一位老师想要描述她 25 人班级考试成绩的变异性。她并不打算将结论推广到其他班级。 答案:使用总体标准差 (N),因为她拥有整个班级(即她关注的总体)的全部成绩,且不需要对其他群体做推断。