什麼是離群值?
離群值是與其他觀測值明顯不同的資料點。它們可能是由測量誤差、資料輸入錯誤造成的,也可能代表值得深入調查的特殊案例。
位於 (10, 50) 的橘色點就是一個離群值
三個標準差法則
對於常態分配的資料,超出平均數 3 個標準差之外的資料點被視為離群值。這種情況在隨機條件下出現的機率不到 0.3%。
離群值判定條件
x < μ - 3σ OR x > μ + 3σ
範例
假設考試成績 μ = 75,σ = 10:
- 下界:75 - 30 = 45
- 上界:75 + 30 = 105
- 低於 45 分或高於 105 分的成績即為離群值
Z 分數法
計算每個資料點的 Z 分數。如果 |z| > 3(有時使用 2.5),則視為離群值。
Z 分數
z = (x - μ) / σ
閾值選項
- |z| > 3:保守標準(偵測較少離群值)
- |z| > 2.5:中等標準
- |z| > 2:寬鬆標準(偵測較多離群值)
IQR 方法(替代方案)
四分位距 (IQR) 方法對離群值有更好的抵抗力,因為它不使用平均數或標準差。
1
步驟一
找出 Q1(第 25 百分位數)和 Q3(第 75 百分位數)
2
步驟二
計算 IQR = Q3 - Q1
3
步驟三
下界 = Q1 - 1.5 × IQR
4
步驟四
上界 = Q3 + 1.5 × IQR
5
步驟五
超出上下界的點即為離群值
如何處理離群值
不要自動刪除!
離群值不一定是錯誤。在移除之前,請先調查:
- 是否為資料輸入或測量錯誤?
- 是否為真實存在的極端值?
- 是否代表一個重要的邊界情況?
何時移除
- 已確認的資料輸入錯誤
- 測量設備故障
- 超出數值可能範圍
何時保留
- 代表真實的變異性
- 對你的分析很重要
- 移除會導致結果偏差