표준편차 공식이란?
표준편차 공식은 데이터 값들의 변동성이나 산포도를 정량화하는 데 사용되는 수학적 공식입니다. 표준편차가 낮다는 것은 데이터 포인트들이 평균(μ 또는 x̄)에 가깝게 모여 있다는 뜻이고, 반대로 표준편차가 높다는 것은 데이터 포인트들이 더 넓은 범위에 걸쳐 퍼져 있다는 것을 의미합니다.
통계학에서 사용하는 공식은 대상이 전체 모집단인지, 아니면 모집단에서 추출한 표본인지에 따라 다릅니다. 핵심 개념은 평균으로부터의 편차를 제곱한 값의 평균을 계산하는 것인데, 이를 분산(σ²)이라고 부르며, 여기에 제곱근을 취해 측정 단위를 원래 단위로 되돌리는 과정입니다.
모집단 표준편차
- σ (시그마): 모집단 표준편차
- Σ (시그마): 합계
- xi: 데이터셋의 각 개별 값
- μ (뮤): 모집단 평균
- N: 모집단의 전체 데이터 수
모집단과 표본 표준편차
실제 데이터 분석 현장에서 전체 모집단의 데이터를 모두 확보하는 경우는 극히 드뭅니다. 대부분 더 큰 모집단에 대해 추론하기 위해 표본을 수집하죠. 표본은 모집단 평균을 단지 추정할 뿐이므로, 표본 데이터에 모집단 공식을 그대로 적용해 표준편차를 계산하면 실제 변동성을 과소 평가하게 됩니다. 이러한 편향을 수정하기 위해 우리는 표본 표준편차 공식을 사용합니다.
표본 표준편차
공식을 혼동하지 마세요!
공식의 단계별 계산 방법
손으로 표준편차를 계산하려면 체계적인 접근이 필요합니다. 다음 단계를 따르면 어떤 데이터셋이든 모집단 표준편차나 표본 표준편차를 정확하게 계산할 수 있습니다.
평균 계산하기
편차 구하기
편차 제곱하기
제곱편차의 합 구하기
N 또는 n-1로 나누기
제곱근 구하기
표본 공식에서 n-1로 나누는 이유는?
n 대신 n-1로 나누는 개념을 베셀의 보정(Bessel's correction)이라고 합니다. 표본 평균(x̄)이 표본 데이터 자체에서 계산되었기 때문에, 편차(xi - x̄)의 합은 수학적으로 항상 0이 될 수밖에 없습니다. 즉, 데이터 포인트들이 실제 모집단 평균(μ)보다 표본 평균에 살짝 더 가깝게 몰려 있다는 뜻입니다.
n-1(즉, 자유도)로 나눔으로써 우리는 이 과소 평가를 보상하기 위해 분산을 적절히 키워주고, 결과적으로 모집단 분산의 불편 추정량(unbiased estimator)을 얻게 됩니다.
Further Reading
Sources
References and further authoritative reading used in preparing this article.