합동 표준편차란?
합동 표준편차(pooled standard deviation)는 두 개 이상 집단의 분산 추정치를 결합하여 하나의 가중 추정치를 구하는 방법입니다. 등분산을 가정하는 독립표본 t-검정에서 필수적입니다.
개념은 간단합니다: 두 집단이 같은 모분산을 가진 모집단에서 왔다고 믿는다면, 두 집단의 데이터를 결합하여 공유 변동성의 더 나은 추정치를 얻을 수 있습니다. 데이터가 많을수록 추정치가 더 정밀해집니다.
이렇게 생각해 보세요: A 집단에서 20개, B 집단에서 30개의 관측이 있고, 두 집단이 같은 진짜 분산을 가진다면, 이제 더 작은 표본에서 따로 추정하는 대신 50개의 관측으로 그 분산을 추정할 수 있습니다.
언제 합동할까
합동 SD 공식
두 집단에 대한 합동 표준편차는:
2집단 합동 SD
여기서 n₁, n₂는 표본 크기, s₁, s₂는 표본 표준편차입니다.
k개 집단(ANOVA의 경우)으로 일반화하면:
다집단 합동 SD
공식에서 분자와 분모 모두 (n-1) 항을 사용합니다. 이 가중 방식은 큰 표본이 합동 추정에 더 많이 기여하도록 보장하며, 큰 표본이 더 신뢰성 있는 분산 추정을 제공하므로 적절합니다.
전제 조건
합동 표준편차는 등분산성(homogeneity of variance)을 가정합니다—모든 집단이 같은 모분산을 가진다는 것입니다. 이 가정은 다음의 경우에 특히 중요합니다:
- 표본 크기가 불균등할 때 (특히 큰 집단의 분산이 작으면 문제)
- 최대 분산과 최소 분산의 비율이 2-3을 초과할 때
- 표본 크기가 작을 때 (큰 표본은 위반에 더 강건함)
분산이 다른 경우
계산 예시
시나리오: 두 학급의 시험 점수 비교:
- A반: n₁ = 25, 평균 = 78, s₁ = 12
- B반: n₂ = 30, 평균 = 82, s₂ = 14
합동 SD 계산:
sp = √[((25-1)(12)² + (30-1)(14)²) / (25+30-2)] sp = √[(24×144 + 29×196) / 53] sp = √[(3456 + 5684) / 53] sp = √[9140 / 53] = √172.45 = 13.13
합동 SD 13.13은 개별 SD(12와 14) 사이에 위치하며, 더 큰 표본 쪽으로 가중됩니다. 이 합동 값은 t-검정 공식이나 Cohen의 d 계산에 사용됩니다.
통계적 응용
- 독립표본 t-검정: 합동 SD로 평균 차이의 표준오차를 계산합니다.
- Cohen의 d 효과 크기: 효과 크기는 합동 SD로 표준화됩니다: d = (M₁ - M₂) / sp
- ANOVA: ANOVA의 오차 평균 제곱(MSE)은 본질적으로 모든 집단에 걸친 합동 분산 추정치입니다.
- 메타분석: 연구들을 결합할 때 합동 추정치가 서로 다른 맥락의 효과를 표준화하는 데 도움을 줍니다.