개요
통계에서 가장 자주 나오는 질문 중 하나는 “n으로 나눠야 하나, n-1로 나눠야 하나?”입니다. 답은 전체 모집단을 다루는지, 표본만 다루는지에 따라 달라집니다.
모집단 (N)
연구 대상 집단의 모든 구성원 데이터를 갖고 있을 때 사용합니다.
σ = √[Σ(x-μ)² / N]
표본 (n-1)
더 큰 모집단의 일부분(표본) 데이터를 갖고 있을 때 사용합니다.
s = √[Σ(x-x̄)² / (n-1)]
모집단 표준편차 (σ)
모집단 표준편차는 분석 대상 그룹의 모든 구성원 측정값을 가지고 있을 때 사용합니다. 실무에서는 비교적 드문 경우입니다.
모집단에 해당하는 예:
- 소규모 회사의 전 직원 50명
- 특정 학급의 학생 30명 전원
- 마감된 회계연도의 모든 거래 내역
- 한 국가의 완전한 인구조사 데이터
표본 표준편차 (s)
표본 표준편차는 더 큰 모집단의 일부분만을 데이터로 사용할 때 쓰입니다. 현실 분석에서는 이쪽이 훨씬 일반적입니다.
표본에 해당하는 예:
- 선거 결과를 예측하기 위해 유권자 1,000명을 조사하는 경우
- 10,000개 생산 배치에서 50개 제품을 검사하는 경우
- 임상 연구에서 환자 200명의 혈압을 측정하는 경우
- 미래 변동성 예측을 위해 5년간의 주가 데이터를 분석하는 경우
베셀 보정 설명
베셀 보정(Bessel's correction)은 표본 표준편차를 계산할 때 n 대신 (n-1)로 나누는 이유입니다. 독일의 수학자 프리드리히 베셀의 이름을 딴 이 보정법은 모집단 분산의 불편 추정치를 제공합니다.
(n-1)이 작동하는 이유
표본 평균을 계산하면 자유도(degree of freedom) 하나가 “사용”됩니다. 표본 평균이 데이터를 구속하기 때문에, n-1개의 값과 평균을 알면 마지막 값은 자동으로 결정됩니다. (n-1)로 나누면 이 자유도 손실을 보정할 수 있습니다.
수학적 직관
표본 데이터는 실제 모집단 평균보다 표본 평균 주위에 더 가깝게 몰리는 경향이 있습니다. 그래서 편차 제곱의 합이 본래 있어야 할 값보다 체계적으로 작아집니다.
n 대신 (n-1)로 나누면 결과가 약간 커지면서 이 과소추정을 보상하여 불편 추정치를 산출하게 됩니다.
각각 언제 사용할까
| 상황 | 사용 | 나누는 수 |
|---|---|---|
| 존재하는 모든 데이터를 갖고 있는 경우 | 모집단 SD (σ) | N |
| 보유한 데이터만 설명하려는 경우 | 모집단 SD (σ) | N |
| 더 큰 모집단을 추정하려는 경우 | 표본 SD (s) | n-1 |
| 추론 통계에 SD를 사용하려는 경우 | 표본 SD (s) | n-1 |
경험 법칙
확신이 없으면 표본 표준편차(n-1)를 사용하세요. 이유는 다음과 같습니다:
- 현실 데이터 대부분은 완전한 모집단이 아닌 표본입니다
- 진짜 모집단에 n-1을 써도 약간의 과대추정에 그칩니다(과소추정보다 안전)
- n이 충분히 크면 두 방법의 차이는 무시할 수 있을 정도입니다
실전 예시
예시: 품질 관리
한 공장이 하루에 위젯 10,000개를 생산합니다. 품질 관리 부서에서 100개를 검사하여 무게 평균이 50g임을 확인합니다.
정답: 100개는 생산된 10,000개의 표본이므로 표본 SD(n-1)를 사용합니다. 이 표본을 통해 전체 위젯의 변동성을 추정하는 것이기 때문입니다.
예시: 학급 성적
한 교사가 25명 학급의 시험 점수 변동성을 파악하려 합니다. 다른 학급으로 일반화할 의도는 없습니다.
정답: 해당 학급 전원(관심 모집단)의 점수를 보유하고 있고 다른 그룹에 대한 추론을 하지 않으므로 모집단 SD(N)를 사용합니다.