분산이란 무엇인가?
분산(모집단은 σ², 표본은 s²로 표기)은 데이터 세트 내 숫자들이 얼마나 퍼져 있는지를 측정하는 통계적 지표입니다. 이는 평균(μ)으로부터의 편차를 제곱한 값들의 평균을 의미합니다. 편차를 제곱함으로써 음수와 양수 편차가 서로 상쇄되는 것을 막고, 데이터의 산포도를 제대로 측정할 수 있습니다. 하지만 편차를 제곱하는 과정 때문에 분산의 단위는 원래 데이터 단위의 제곱이 되어, 직관적으로 해석하기에는 다소 추상적이라는 단점이 있습니다.
모집단 분산
측정 단위의 함정
표준편차란 무엇인가?
표준편차(모집단은 σ, 표본은 s로 표기)는 분산의 제곱근입니다. 개별 데이터 포인트가 평균으로부터 벗어나는 정도를 측정합니다. 분산에 제곱근을 취해 도출하기 때문에 표준편차는 원래 데이터와 동일한 단위를 가지며, 실제 현실 세계의 응용에서 훨씬 직관적이고 해석하기 쉽습니다. 통계적 산포도를 측정하는 데 가장 널리 사용되는 지표입니다.
모집단 표준편차
표준편차와 분산의 핵심 차이점
두 지표 모두 평균을 중심으로 데이터가 얼마나 퍼져 있는지를 측정하지만, 수학적 관계와 실용성에서는 큰 차이가 있습니다. 가장 근본적인 차이는 단위와 해석의 용이성에 있습니다. 표준편차는 분산의 제곱근이므로 데이터의 산포도를 원래 단위로 되돌려 줍니다. 반면 분산은 제곱된 값이므로 이상치(outlier)에 더 큰 가중치를 부여하여 극단적인 값에 매우 민감하게 반응합니다.
| 구분 | 분산 (σ² / s²) | 표준편차 (σ / s) |
|---|---|---|
| 수학적 기반 | 편차 제곱의 평균 | 분산의 제곱근 |
| 단위 | 제곱 단위 (예: cm², ₩²) | 원래 단위 (예: cm, ₩) |
| 해석 용이성 | 추상적; 데이터와 직접 연관 짓기 어려움 | 직관적; 데이터와 직접적으로 연결됨 |
| 이상치 민감도 | 높음 (제곱으로 인해 증폭됨) | 보통 (제곱근으로 인해 완화됨) |
| 주요 활용 사례 | 통계적 추론, 분산분석(ANOVA), 포트폴리오 이론 | 기술 통계, 보고서 작성, 경험적 법칙 |
모집단과 표본의 공식 차이
이러한 지표를 계산할 때는 모집단(population)과 표본(sample)을 명확히 구분해야 합니다. 모집단은 특정 집단의 모든 구성원을 포함하는 반면, 표본은 그 모집단의 일부입니다. 표본 공식에서 분모를 (n - 1)로 사용하는 것을 베셀의 보정(Bessel's correction)이라고 하며, 이는 표본으로 모집단의 분산을 추정할 때 발생하는 본질적인 편향을 보정하여 불편 추정량(unbiased estimator)을 만들어줍니다.
표본 분산
n과 n-1의 함정 주의
분산과 표준편차, 언제 사용해야 할까?
분산과 표준편차 중 무엇을 선택할지는 전적으로 분석 목적에 달려 있습니다. 비전문가에게 데이터의 퍼짐 정도를 전달할 때는 데이터의 원래 단위와 일치하는 표준편차가 압도적으로 유리합니다. 하지만 분산분석(ANOVA)에서 F-통계량을 계산하거나, 현대 포트폴리오 이론에서 위험을 평가하거나, 가설 검정을 수행하는 등 중간 단계의 통계적 계산을 수행할 때는 분산이 수학적으로 훨씬 다루기 편리합니다.
분산을 사용할 때
표준편차를 사용할 때
파이썬으로 표준편차와 분산 계산하기
파이썬의 `statistics` 모듈은 분산과 표준편차를 계산하는 내장 함수를 제공합니다. 이 함수들을 사용할 때는 데이터가 모집단을 나타내는지 표본을 나타내는지에 따라 올바른 메서드를 선택하는 것이 매우 중요합니다.
import statistics
# 샘플 데이터셋
data = [14, 18, 12, 15, 11]
# 표본 분산 및 표준편차 계산
sample_var = statistics.variance(data)
sample_sd = statistics.stdev(data)
# 모집단 분산 및 표준편차 계산
pop_var = statistics.pvariance(data)
pop_sd = statistics.pstdev(data)
print(f"Sample Variance: {sample_var:.2f}")
print(f"Sample SD: {sample_sd:.2f}")
print(f"Population Variance: {pop_var:.2f}")
print(f"Population SD: {pop_sd:.2f}")자주 묻는 질문(FAQ)
- 분산은 음수가 될 수 있나요? 아니요, 편차 제곱의 합(xᵢ - μ)²은 항상 0 또는 양수이므로 분산은 결코 음수가 될 수 없습니다.
- 보고할 때 분산보다 표준편차를 선호하는 이유는 무엇인가요? 표준편차는 평균과 동일한 단위를 공유하므로, 원본 데이터와 함께 문맥에 맞게 해석하기가 훨씬 수월하기 때문입니다.
- 분산과 평균 제곱 오차(MSE)는 같은 건가요? 개념은 비슷하지만, MSE는 추정값과 실제값 사이의 평균 제곱 차이를 측정하는 반면, 분산은 평균을 중심으로 한 퍼짐 정도를 측정합니다. 추정치가 평균일 경우 MSE와 분산은 동일해집니다.
Further Reading
Sources
References and further authoritative reading used in preparing this article.