개요
통계에서 가장 자주 나오는 질문 중 하나는 “n으로 나눠야 하나, n-1로 나눠야 하나?”입니다. 답은 전체 모집단을 다루는지, 표본만 다루는지에 따라 달라집니다.
모집단 (N)
표본 (n-1)
모집단 표준편차 (σ)
모집단 표준편차는 분석 대상 그룹의 모든 구성원 측정값을 가지고 있을 때 사용합니다. 실무에서는 비교적 드문 경우입니다.
모집단에 해당하는 예:
- 소규모 회사의 전 직원 50명
- 특정 학급의 학생 30명 전원
- 마감된 회계연도의 모든 거래 내역
- 한 국가의 완전한 인구조사 데이터
표본 표준편차 (s)
표본 표준편차는 더 큰 모집단의 일부분만을 데이터로 사용할 때 쓰입니다. 현실 분석에서는 이쪽이 훨씬 일반적입니다.
표본에 해당하는 예:
- 선거 결과를 예측하기 위해 유권자 1,000명을 조사하는 경우
- 10,000개 생산 배치에서 50개 제품을 검사하는 경우
- 임상 연구에서 환자 200명의 혈압을 측정하는 경우
- 미래 변동성 예측을 위해 5년간의 주가 데이터를 분석하는 경우
베셀 보정 설명
베셀 보정(Bessel's correction)은 표본 표준편차를 계산할 때 n 대신 (n-1)로 나누는 이유입니다. 독일의 수학자 프리드리히 베셀의 이름을 딴 이 보정법은 모집단 분산의 불편 추정치를 제공합니다.
(n-1)이 작동하는 이유
수학적 직관
표본 데이터는 실제 모집단 평균보다 표본 평균 주위에 더 가깝게 몰리는 경향이 있습니다. 그래서 편차 제곱의 합이 본래 있어야 할 값보다 체계적으로 작아집니다.
n 대신 (n-1)로 나누면 결과가 약간 커지면서 이 과소추정을 보상하여 불편 추정치를 산출하게 됩니다.
각각 언제 사용할까
| 상황 | 사용 | 나누는 수 |
|---|---|---|
| 존재하는 모든 데이터를 갖고 있는 경우 | 모집단 SD (σ) | N |
| 보유한 데이터만 설명하려는 경우 | 모집단 SD (σ) | N |
| 더 큰 모집단을 추정하려는 경우 | 표본 SD (s) | n-1 |
| 추론 통계에 SD를 사용하려는 경우 | 표본 SD (s) | n-1 |
경험 법칙