분산이란?
분산은 데이터가 평균으로부터 얼마나 퍼져 있는지를 측정합니다. 평균과의 차이를 제곱하여 평균한 값이며, 표준편차의 기반이 되는 개념입니다.
각 막대는 평균으로부터의 제곱 편차를 나타냅니다. 분산 = 이 막대들의 평균입니다.
분산 공식
모집단 분산
σ² = Σ(xᵢ - μ)² / N
표본 분산
s² = Σ(xᵢ - x̄)² / (n-1)
1
평균 계산
모든 값을 더한 뒤 개수로 나눕니다.
2
각 편차 구하기
각 데이터에서 평균을 뺍니다.
3
편차 제곱
음수를 없애고 큰 편차를 강조합니다.
4
제곱 편차의 평균 구하기
N(모집단) 또는 n-1(표본)로 나눕니다.
왜 편차를 제곱할까?
세 가지 핵심 이유
1. 음수 제거: 제곱하지 않으면 양수와 음수 편차가 상쇄되어 합이 0이 됩니다.
2. 이상치 강조: 제곱하면 평균에서 멀리 떨어진 값에 더 큰 가중치가 부여됩니다.
3. 수학적 성질: 분산은 통계적 추론에 유용한 대수적 성질을 가지고 있습니다.
예시: 왜 절댓값을 쓰지 않을까?
데이터: 2, 4, 4, 4, 5, 5, 7, 9 (평균 = 5)
평균 절대 편차:
|2-5| + |4-5| + ... = 14
MAD = 14/8 = 1.75
분산 (제곱):
(2-5)² + (4-5)² + ... = 32
Var = 32/8 = 4
분산 vs 표준편차
둘의 관계
Standard Deviation = √Variance → σ = √σ²
분산 (σ²)
- 단위가 제곱됨 (예: cm², $²)
- 직접 해석하기 어려움
- 수학적 연산에 유용
- 독립 변수에 대해 덧셈 가능
표준편차 (σ)
- 원래 데이터와 같은 단위
- 해석이 쉬움
- 소통에 더 적합
- Z-점수와 신뢰구간에 사용
분산의 활용
표준편차가 더 자주 보고되지만, 분산이 특별히 쓰이는 영역이 있습니다:
- ANOVA:분산분석은 여러 집단 간 평균을 비교합니다
- 포트폴리오 이론:수익률의 분산이 최적화에 활용됩니다
- 회귀분석:R²는 설명된 분산을 총 분산으로 나눈 값입니다
- PCA:주성분분석은 설명 분산을 최대화합니다