Σ
SDCalc
중급이론·10 min

정규분포와 종형 곡선 이해하기

정규분포의 개념, 종형 곡선의 형태, 표준편차가 분포에 미치는 영향, 그리고 정규분포가 통계에서 핵심인 이유를 배워봅니다.

정규분포란?

정규분포(가우스 분포 또는 “종형 곡선”이라고도 부릅니다)는 통계학에서 가장 중요한 확률분포입니다. 데이터 값들이 중심 평균을 기준으로 어떻게 분포하는지를 나타냅니다.

The Classic Bell Curve

정규분포는 단 두 개의 모수(parameter)로 완전히 정의됩니다: 중심을 결정하는 평균(μ)과 퍼짐 정도를 결정하는 표준편차(σ)입니다.

주요 특성

대칭성

분포가 평균을 중심으로 완벽히 대칭입니다. 좌우가 거울상입니다.

평균 = 중앙값 = 최빈값

정규분포에서는 세 가지 중심 경향 측도가 모두 같으며, 분포의 중앙에 위치합니다.

점근선

꼬리 부분은 무한히 뻗어 있지만 x축에 닿지 않습니다. 극단적인 값은 가능하지만 점점 드물어집니다.

전체 면적 = 1

곡선 아래 전체 면적은 1(또는 100%)이며, 가능한 모든 결과를 나타냅니다.

표준편차가 형태에 미치는 영향

표준편차는 정규분포의 “퍼짐 정도”를 제어합니다. σ가 작으면 높고 좁은 곡선이 되고, σ가 크면 낮고 넓은 곡선이 됩니다.

Visual Comparison

Low SD (σ = 0.5)

Data clustered tightly around the mean

High SD (σ = 2)

Data spread widely from the mean

Z-점수와 표준화

Z-점수는 어떤 값이 평균에서 몇 표준편차만큼 떨어져 있는지를 나타냅니다. 서로 다른 정규분포의 값들을 비교할 때 유용합니다.

Z-점수 공식

z = (x - μ) / σ
Z-점수의미백분위수
-2평균에서 2SD 아래~2.3%
-1평균에서 1SD 아래~15.9%
0평균 위치50%
+1평균에서 1SD 위~84.1%
+2평균에서 2SD 위~97.7%

실생활 예시

많은 자연 현상이 정규분포를 따릅니다:

  • 사람의 키:대부분 평균 키에 가깝고, 매우 크거나 매우 작은 사람은 적습니다
  • IQ 점수:평균 100, 표준편차 15의 정규분포를 따르도록 설계되어 있습니다
  • 측정 오차:과학적 측정에서 발생하는 무작위 오차
  • 혈압:집단의 혈압 측정값 분포

데이터가 정규분포가 아닌 경우

모든 데이터가 정규분포를 따르는 것은 아닙니다. 다음의 경우에 주의하세요:

비정규 분포

- 소득 데이터: 보통 오른쪽으로 치우침(고소득자의 긴 꼬리) - 대기 시간: 지수분포를 따르는 경우가 많음 - 빈도 데이터: 포아송 분포를 따를 수 있음 - 비율 데이터: 이항분포를 따름