이상치란?
이상치는 다른 관측값과 크게 다른 데이터 포인트를 말합니다. 측정 오류, 데이터 입력 실수로 발생할 수도 있고, 조사할 가치가 있는 진짜 특이한 사례일 수도 있습니다.
(10, 50) 위치의 주황색 점이 이상치입니다
3-시그마 규칙
정규분포 데이터에서 평균으로부터 3 표준편차를 넘는 값은 이상치로 간주됩니다. 우연으로 발생할 확률이 0.3% 미만입니다.
이상치 조건
x < μ - 3σ OR x > μ + 3σ
예시
시험 점수가 μ = 75, σ = 10이라면:
- 하한: 75 - 30 = 45
- 상한: 75 + 30 = 105
- 45점 미만이나 105점 초과인 점수는 이상치
Z-점수 방법
각 데이터의 Z-점수를 계산합니다. |z| > 3(때로는 2.5)이면 이상치입니다.
Z-점수
z = (x - μ) / σ
기준값 선택
- |z| > 3: 보수적 (이상치를 적게 잡음)
- |z| > 2.5: 중간
- |z| > 2: 관대함 (이상치를 많이 잡음)
IQR 방법 (대안)
사분위수 범위(IQR) 방법은 평균이나 표준편차를 사용하지 않으므로 이상치에 더 강건합니다.
1
1단계
Q1(25번째 백분위수)과 Q3(75번째 백분위수) 구하기
2
2단계
IQR = Q3 - Q1 계산
3
3단계
하한 울타리 = Q1 - 1.5 × IQR
4
4단계
상한 울타리 = Q3 + 1.5 × IQR
5
5단계
울타리 밖의 값이 이상치
이상치 처리 방법
무조건 삭제하지 마세요!
이상치가 항상 오류인 것은 아닙니다. 제거하기 전에 다음을 조사하세요:
- 데이터 입력이나 측정 오류인가?
- 실제 극단적인 값인가?
- 중요한 특수 사례를 나타내는가?
제거할 때
- 확인된 데이터 입력 오류
- 측정 장비 오작동
- 가능한 값의 범위를 벗어남
유지할 때
- 실제 변동성을 나타냄
- 분석에 중요한 정보
- 제거하면 결과에 편향 발생