정규분포란?
정규분포(가우스 분포 또는 “종형 곡선”이라고도 부릅니다)는 통계학에서 가장 중요한 확률분포입니다. 데이터 값들이 중심 평균을 기준으로 어떻게 분포하는지를 나타냅니다.
The Classic Bell Curve
정규분포는 단 두 개의 모수(parameter)로 완전히 정의됩니다: 중심을 결정하는 평균(μ)과 퍼짐 정도를 결정하는 표준편차(σ)입니다.
주요 특성
대칭성
분포가 평균을 중심으로 완벽히 대칭입니다. 좌우가 거울상입니다.
평균 = 중앙값 = 최빈값
정규분포에서는 세 가지 중심 경향 측도가 모두 같으며, 분포의 중앙에 위치합니다.
점근선
꼬리 부분은 무한히 뻗어 있지만 x축에 닿지 않습니다. 극단적인 값은 가능하지만 점점 드물어집니다.
전체 면적 = 1
곡선 아래 전체 면적은 1(또는 100%)이며, 가능한 모든 결과를 나타냅니다.
표준편차가 형태에 미치는 영향
표준편차는 정규분포의 “퍼짐 정도”를 제어합니다. σ가 작으면 높고 좁은 곡선이 되고, σ가 크면 낮고 넓은 곡선이 됩니다.
Visual Comparison
Low SD (σ = 0.5)
Data clustered tightly around the mean
High SD (σ = 2)
Data spread widely from the mean
Z-점수와 표준화
Z-점수는 어떤 값이 평균에서 몇 표준편차만큼 떨어져 있는지를 나타냅니다. 서로 다른 정규분포의 값들을 비교할 때 유용합니다.
Z-점수 공식
z = (x - μ) / σ
| Z-점수 | 의미 | 백분위수 |
|---|---|---|
| -2 | 평균에서 2SD 아래 | ~2.3% |
| -1 | 평균에서 1SD 아래 | ~15.9% |
| 0 | 평균 위치 | 50% |
| +1 | 평균에서 1SD 위 | ~84.1% |
| +2 | 평균에서 2SD 위 | ~97.7% |
실생활 예시
많은 자연 현상이 정규분포를 따릅니다:
- 사람의 키:대부분 평균 키에 가깝고, 매우 크거나 매우 작은 사람은 적습니다
- IQ 점수:평균 100, 표준편차 15의 정규분포를 따르도록 설계되어 있습니다
- 측정 오차:과학적 측정에서 발생하는 무작위 오차
- 혈압:집단의 혈압 측정값 분포
데이터가 정규분포가 아닌 경우
모든 데이터가 정규분포를 따르는 것은 아닙니다. 다음의 경우에 주의하세요:
비정규 분포
- 소득 데이터: 보통 오른쪽으로 치우침(고소득자의 긴 꼬리)
- 대기 시간: 지수분포를 따르는 경우가 많음
- 빈도 데이터: 포아송 분포를 따를 수 있음
- 비율 데이터: 이항분포를 따름