Σ
SDCalc
进阶应用·9 min

利用标准差检测异常值

学习如何使用标准差识别数据中的异常值。掌握 3σ 法则、IQR 方法,以及何时应该剔除异常值。

什么是异常值?

异常值是与其他观测值差异显著的数据点。它们可能由测量误差、数据录入错误引起,也可能代表值得调查的真正异常情况。

位于 (10, 50) 的橙色点是一个异常值

3σ 法则

对于正态分布数据,偏离均值超过 3 个标准差的数据点被视为异常值。这种情况随机发生的概率不到 0.3%。

异常值判定条件

x < μ - 3σ OR x > μ + 3σ

示例

假设考试成绩的 μ = 75,σ = 10: - 下界:75 - 30 = 45 - 上界:75 + 30 = 105 - 低于 45 分或高于 105 分即为异常值

Z 分数法

计算每个数据点的 Z 分数。若 |z| > 3(有时为 2.5),则判定为异常值。

Z 分数

z = (x - μ) / σ

阈值选择

- |z| > 3:保守标准(识别的异常值较少) - |z| > 2.5:适中标准 - |z| > 2:宽松标准(识别的异常值较多)

IQR 方法(替代方案)

四分位距(IQR)方法对异常值更具稳健性,因为它不使用均值和标准差。

1

第一步

找到 Q1(第 25 百分位数)和 Q3(第 75 百分位数)
2

第二步

计算 IQR = Q3 - Q1
3

第三步

下界 = Q1 - 1.5 × IQR
4

第四步

上界 = Q3 + 1.5 × IQR
5

第五步

落在上下界之外的点即为异常值

异常值的处理

不要自动删除!

异常值不一定都是错误。在删除之前,请先调查: - 是否为数据录入或测量错误? - 是否为真实的极端值? - 是否代表一个重要的边界情况?

何时删除

- 确认的数据录入错误 - 测量设备故障 - 超出数据可能的取值范围

何时保留

- 反映了真实的变异性 - 对你的分析很重要 - 删除会导致结果偏差