Σ
SDCalc
중급응용·9 min

표준편차를 이용한 이상치 탐지

표준편차로 데이터의 이상치를 식별하는 방법을 배워봅니다. 3-시그마 규칙, IQR 방법, 그리고 이상치 제거 판단 기준을 알아봅니다.

이상치란?

이상치는 다른 관측값과 크게 다른 데이터 포인트를 말합니다. 측정 오류, 데이터 입력 실수로 발생할 수도 있고, 조사할 가치가 있는 진짜 특이한 사례일 수도 있습니다.

(10, 50) 위치의 주황색 점이 이상치입니다

3-시그마 규칙

정규분포 데이터에서 평균으로부터 3 표준편차를 넘는 값은 이상치로 간주됩니다. 우연으로 발생할 확률이 0.3% 미만입니다.

이상치 조건

x < μ - 3σ OR x > μ + 3σ

예시

시험 점수가 μ = 75, σ = 10이라면: - 하한: 75 - 30 = 45 - 상한: 75 + 30 = 105 - 45점 미만이나 105점 초과인 점수는 이상치

Z-점수 방법

각 데이터의 Z-점수를 계산합니다. |z| > 3(때로는 2.5)이면 이상치입니다.

Z-점수

z = (x - μ) / σ

기준값 선택

- |z| > 3: 보수적 (이상치를 적게 잡음) - |z| > 2.5: 중간 - |z| > 2: 관대함 (이상치를 많이 잡음)

IQR 방법 (대안)

사분위수 범위(IQR) 방법은 평균이나 표준편차를 사용하지 않으므로 이상치에 더 강건합니다.

1

1단계

Q1(25번째 백분위수)과 Q3(75번째 백분위수) 구하기
2

2단계

IQR = Q3 - Q1 계산
3

3단계

하한 울타리 = Q1 - 1.5 × IQR
4

4단계

상한 울타리 = Q3 + 1.5 × IQR
5

5단계

울타리 밖의 값이 이상치

이상치 처리 방법

무조건 삭제하지 마세요!

이상치가 항상 오류인 것은 아닙니다. 제거하기 전에 다음을 조사하세요: - 데이터 입력이나 측정 오류인가? - 실제 극단적인 값인가? - 중요한 특수 사례를 나타내는가?

제거할 때

- 확인된 데이터 입력 오류 - 측정 장비 오작동 - 가능한 값의 범위를 벗어남

유지할 때

- 실제 변동성을 나타냄 - 분석에 중요한 정보 - 제거하면 결과에 편향 발생

Further Reading

How to Read This Article

A statistics tutorial is a practical interpretation guide, not just a formula dump. It refers to the assumptions, notation, and reporting language that analysts need when they explain a result to a teacher, manager, client, or reviewer. The article body covers the specific topic, while the sections below create a common interpretation frame that readers can reuse across related metrics.

Reading goalWhat to focus onCommon mistake
DefinitionWhat the metric is and what quantity it summarizesTreating the formula as self-explanatory
Formula choiceSample versus population assumptions and notationUsing n when n-1 is required or vice versa
InterpretationWhether the result indicates concentration, spread, or riskCalling a large value good or bad without context

Frequently Asked Questions

How should I interpret a high standard deviation?

A high standard deviation means the observations are spread farther from the mean on average. Whether that spread is acceptable depends on the context: wide dispersion might signal risk in finance, instability in manufacturing, or genuine natural variation in scientific data.

Why do some articles mention n while others mention n-1?

The denominator reflects the difference between population and sample formulas. Population variance and population standard deviation use N because the full dataset is known. Sample variance and sample standard deviation often use n-1 because Bessel’s correction reduces bias when estimating population spread from a sample.

What is a statistical interpretation guide?

A statistical interpretation guide is a page that moves beyond arithmetic and explains meaning. It tells you what a metric is, when the formula applies, and how to describe the result in plain English without overstating certainty.

Can I cite this article in a report?

You should cite the underlying authoritative reference for formal work whenever possible. This page is best used as an explanatory bridge that helps you understand the concept before quoting the original standard or handbook.

Why include direct citations on every article page?

Direct citations give readers a route to verify the definition, notation, and assumptions. That improves trust and reduces the chance that a simplified explanation is mistaken for the entire technical standard.

Authoritative References

These sources define the concepts referenced most often across our articles. Bessel's correction is a sample adjustment, variance is a squared measure of spread, and standard deviation is the square root of variance expressed in the same units as the data.