Σ
SDCalc
中級實務應用·9 min

利用標準差偵測離群值

學習如何使用標準差識別資料中的離群值。掌握三個標準差法則、IQR 方法,並了解何時應該移除離群值。

什麼是離群值?

離群值是與其他觀測值明顯不同的資料點。它們可能是由測量誤差、資料輸入錯誤造成的,也可能代表值得深入調查的特殊案例。

位於 (10, 50) 的橘色點就是一個離群值

三個標準差法則

對於常態分配的資料,超出平均數 3 個標準差之外的資料點被視為離群值。這種情況在隨機條件下出現的機率不到 0.3%。

離群值判定條件

x < μ - 3σ OR x > μ + 3σ

範例

假設考試成績 μ = 75,σ = 10: - 下界:75 - 30 = 45 - 上界:75 + 30 = 105 - 低於 45 分或高於 105 分的成績即為離群值

Z 分數法

計算每個資料點的 Z 分數。如果 |z| > 3(有時使用 2.5),則視為離群值。

Z 分數

z = (x - μ) / σ

閾值選項

- |z| > 3:保守標準(偵測較少離群值) - |z| > 2.5:中等標準 - |z| > 2:寬鬆標準(偵測較多離群值)

IQR 方法(替代方案)

四分位距 (IQR) 方法對離群值有更好的抵抗力,因為它不使用平均數或標準差。

1

步驟一

找出 Q1(第 25 百分位數)和 Q3(第 75 百分位數)
2

步驟二

計算 IQR = Q3 - Q1
3

步驟三

下界 = Q1 - 1.5 × IQR
4

步驟四

上界 = Q3 + 1.5 × IQR
5

步驟五

超出上下界的點即為離群值

如何處理離群值

不要自動刪除!

離群值不一定是錯誤。在移除之前,請先調查: - 是否為資料輸入或測量錯誤? - 是否為真實存在的極端值? - 是否代表一個重要的邊界情況?

何時移除

- 已確認的資料輸入錯誤 - 測量設備故障 - 超出數值可能範圍

何時保留

- 代表真實的變異性 - 對你的分析很重要 - 移除會導致結果偏差