外れ値とは?
外れ値とは、他の観測値から大きく外れたデータ点のことです。測定エラー、データ入力ミスが原因の場合もあれば、調査に値する真に異常なケースを表している場合もあります。
(10, 50) のオレンジ色の点が外れ値です。
3シグマルール
正規分布に従うデータの場合、平均から標準偏差3つ分を超えるデータ点は外れ値とみなされます。偶然にこのような値が発生する確率は0.3%未満です。
外れ値の条件
x < μ - 3σ OR x > μ + 3σ
例
テストの点数が μ = 75、σ = 10 の場合:
- 下限: 75 - 30 = 45
- 上限: 75 + 30 = 105
- 45未満または105超のスコアは外れ値
Zスコア法
各データ点のZスコアを計算します。|z| > 3(場合によっては2.5)であれば外れ値です。
Zスコア
z = (x - μ) / σ
閾値の選択肢
- |z| > 3:保守的(検出される外れ値が少ない)
- |z| > 2.5:中程度
- |z| > 2:積極的(検出される外れ値が多い)
IQR法(代替手法)
四分位範囲 (IQR) 法は、平均や標準偏差を使用しないため、外れ値に対してより頑健です。
1
ステップ1
Q1(第1四分位数)とQ3(第3四分位数)を求める
2
ステップ2
IQR = Q3 - Q1 を計算する
3
ステップ3
下限フェンス = Q1 - 1.5 × IQR
4
ステップ4
上限フェンス = Q3 + 1.5 × IQR
5
ステップ5
フェンスの外側の点が外れ値
外れ値の取り扱い
自動的に削除しないこと!
外れ値が必ずしもエラーとは限りません。除外する前に調査しましょう。
- データ入力ミスや測定エラーか?
- 本物の極端な値か?
- 重要なエッジケースを表しているか?
除外すべき場合
- 確認されたデータ入力エラー
- 測定機器の故障
- 値の取りうる範囲外
残すべき場合
- 実際のばらつきを反映している
- 分析にとって重要
- 除外すると結果にバイアスが生じる