什么是异常值?
异常值是与其他观测值差异显著的数据点。它们可能由测量误差、数据录入错误引起,也可能代表值得调查的真正异常情况。
位于 (10, 50) 的橙色点是一个异常值
3σ 法则
对于正态分布数据,偏离均值超过 3 个标准差的数据点被视为异常值。这种情况随机发生的概率不到 0.3%。
异常值判定条件
x < μ - 3σ OR x > μ + 3σ
示例
假设考试成绩的 μ = 75,σ = 10:
- 下界:75 - 30 = 45
- 上界:75 + 30 = 105
- 低于 45 分或高于 105 分即为异常值
Z 分数法
计算每个数据点的 Z 分数。若 |z| > 3(有时为 2.5),则判定为异常值。
Z 分数
z = (x - μ) / σ
阈值选择
- |z| > 3:保守标准(识别的异常值较少)
- |z| > 2.5:适中标准
- |z| > 2:宽松标准(识别的异常值较多)
IQR 方法(替代方案)
四分位距(IQR)方法对异常值更具稳健性,因为它不使用均值和标准差。
1
第一步
找到 Q1(第 25 百分位数)和 Q3(第 75 百分位数)
2
第二步
计算 IQR = Q3 - Q1
3
第三步
下界 = Q1 - 1.5 × IQR
4
第四步
上界 = Q3 + 1.5 × IQR
5
第五步
落在上下界之外的点即为异常值
异常值的处理
不要自动删除!
异常值不一定都是错误。在删除之前,请先调查:
- 是否为数据录入或测量错误?
- 是否为真实的极端值?
- 是否代表一个重要的边界情况?
何时删除
- 确认的数据录入错误
- 测量设备故障
- 超出数据可能的取值范围
何时保留
- 反映了真实的变异性
- 对你的分析很重要
- 删除会导致结果偏差