Σ
SDCalc
中級応用·9 min

標準偏差による外れ値の検出

標準偏差を使ってデータの外れ値を特定する方法を解説。3シグマルール、IQR法、外れ値を除外すべきケースについて学びましょう。

外れ値とは?

外れ値とは、他の観測値から大きく外れたデータ点のことです。測定エラー、データ入力ミスが原因の場合もあれば、調査に値する真に異常なケースを表している場合もあります。

(10, 50) のオレンジ色の点が外れ値です。

3シグマルール

正規分布に従うデータの場合、平均から標準偏差3つ分を超えるデータ点は外れ値とみなされます。偶然にこのような値が発生する確率は0.3%未満です。

外れ値の条件

x < μ - 3σ OR x > μ + 3σ

テストの点数が μ = 75、σ = 10 の場合: - 下限: 75 - 30 = 45 - 上限: 75 + 30 = 105 - 45未満または105超のスコアは外れ値

Zスコア法

各データ点のZスコアを計算します。|z| > 3(場合によっては2.5)であれば外れ値です。

Zスコア

z = (x - μ) / σ

閾値の選択肢

- |z| > 3:保守的(検出される外れ値が少ない) - |z| > 2.5:中程度 - |z| > 2:積極的(検出される外れ値が多い)

IQR法(代替手法)

四分位範囲 (IQR) 法は、平均や標準偏差を使用しないため、外れ値に対してより頑健です。

1

ステップ1

Q1(第1四分位数)とQ3(第3四分位数)を求める
2

ステップ2

IQR = Q3 - Q1 を計算する
3

ステップ3

下限フェンス = Q1 - 1.5 × IQR
4

ステップ4

上限フェンス = Q3 + 1.5 × IQR
5

ステップ5

フェンスの外側の点が外れ値

外れ値の取り扱い

自動的に削除しないこと!

外れ値が必ずしもエラーとは限りません。除外する前に調査しましょう。 - データ入力ミスや測定エラーか? - 本物の極端な値か? - 重要なエッジケースを表しているか?

除外すべき場合

- 確認されたデータ入力エラー - 測定機器の故障 - 値の取りうる範囲外

残すべき場合

- 実際のばらつきを反映している - 分析にとって重要 - 除外すると結果にバイアスが生じる