Σ
SDCalc
중급응용·9 min

표준편차를 이용한 이상치 탐지

표준편차로 데이터의 이상치를 식별하는 방법을 배워봅니다. 3-시그마 규칙, IQR 방법, 그리고 이상치 제거 판단 기준을 알아봅니다.

이상치란?

이상치는 다른 관측값과 크게 다른 데이터 포인트를 말합니다. 측정 오류, 데이터 입력 실수로 발생할 수도 있고, 조사할 가치가 있는 진짜 특이한 사례일 수도 있습니다.

(10, 50) 위치의 주황색 점이 이상치입니다

3-시그마 규칙

정규분포 데이터에서 평균으로부터 3 표준편차를 넘는 값은 이상치로 간주됩니다. 우연으로 발생할 확률이 0.3% 미만입니다.

이상치 조건

x < μ - 3σ OR x > μ + 3σ

예시

시험 점수가 μ = 75, σ = 10이라면: - 하한: 75 - 30 = 45 - 상한: 75 + 30 = 105 - 45점 미만이나 105점 초과인 점수는 이상치

Z-점수 방법

각 데이터의 Z-점수를 계산합니다. |z| > 3(때로는 2.5)이면 이상치입니다.

Z-점수

z = (x - μ) / σ

기준값 선택

- |z| > 3: 보수적 (이상치를 적게 잡음) - |z| > 2.5: 중간 - |z| > 2: 관대함 (이상치를 많이 잡음)

IQR 방법 (대안)

사분위수 범위(IQR) 방법은 평균이나 표준편차를 사용하지 않으므로 이상치에 더 강건합니다.

1

1단계

Q1(25번째 백분위수)과 Q3(75번째 백분위수) 구하기
2

2단계

IQR = Q3 - Q1 계산
3

3단계

하한 울타리 = Q1 - 1.5 × IQR
4

4단계

상한 울타리 = Q3 + 1.5 × IQR
5

5단계

울타리 밖의 값이 이상치

이상치 처리 방법

무조건 삭제하지 마세요!

이상치가 항상 오류인 것은 아닙니다. 제거하기 전에 다음을 조사하세요: - 데이터 입력이나 측정 오류인가? - 실제 극단적인 값인가? - 중요한 특수 사례를 나타내는가?

제거할 때

- 확인된 데이터 입력 오류 - 측정 장비 오작동 - 가능한 값의 범위를 벗어남

유지할 때

- 실제 변동성을 나타냄 - 분석에 중요한 정보 - 제거하면 결과에 편향 발생