Σ
SDCalc
초급기초·10 min

분산 이해하기: 표준편차의 기초

분산의 개념과 표준편차와의 관계를 마스터하세요. 공식, 계산법, 실전 활용까지 다룹니다.

분산이란?

분산은 데이터가 평균으로부터 얼마나 퍼져 있는지를 측정합니다. 평균과의 차이를 제곱하여 평균한 값이며, 표준편차의 기반이 되는 개념입니다.

각 막대는 평균으로부터의 제곱 편차를 나타냅니다. 분산 = 이 막대들의 평균입니다.

분산 공식

모집단 분산

σ² = Σ(xᵢ - μ)² / N

표본 분산

s² = Σ(xᵢ - x̄)² / (n-1)
1

평균 계산

모든 값을 더한 뒤 개수로 나눕니다.
2

각 편차 구하기

각 데이터에서 평균을 뺍니다.
3

편차 제곱

음수를 없애고 큰 편차를 강조합니다.
4

제곱 편차의 평균 구하기

N(모집단) 또는 n-1(표본)로 나눕니다.

왜 편차를 제곱할까?

세 가지 핵심 이유

1. 음수 제거: 제곱하지 않으면 양수와 음수 편차가 상쇄되어 합이 0이 됩니다. 2. 이상치 강조: 제곱하면 평균에서 멀리 떨어진 값에 더 큰 가중치가 부여됩니다. 3. 수학적 성질: 분산은 통계적 추론에 유용한 대수적 성질을 가지고 있습니다.

예시: 왜 절댓값을 쓰지 않을까?

데이터: 2, 4, 4, 4, 5, 5, 7, 9 (평균 = 5) 평균 절대 편차: |2-5| + |4-5| + ... = 14 MAD = 14/8 = 1.75 분산 (제곱): (2-5)² + (4-5)² + ... = 32 Var = 32/8 = 4

분산 vs 표준편차

둘의 관계

Standard Deviation = √Variance → σ = √σ²

분산 (σ²)

- 단위가 제곱됨 (예: cm², $²) - 직접 해석하기 어려움 - 수학적 연산에 유용 - 독립 변수에 대해 덧셈 가능

표준편차 (σ)

- 원래 데이터와 같은 단위 - 해석이 쉬움 - 소통에 더 적합 - Z-점수와 신뢰구간에 사용

분산의 활용

표준편차가 더 자주 보고되지만, 분산이 특별히 쓰이는 영역이 있습니다:

  • ANOVA:분산분석은 여러 집단 간 평균을 비교합니다
  • 포트폴리오 이론:수익률의 분산이 최적화에 활용됩니다
  • 회귀분석:R²는 설명된 분산을 총 분산으로 나눈 값입니다
  • PCA:주성분분석은 설명 분산을 최대화합니다