Σ
SDCalc
고급심화·14 min

다중 집단의 합동 표준편차

t-검정과 ANOVA에서 여러 집단의 데이터를 결합할 때 사용하는 합동 표준편차의 계산법을 배워봅니다.

합동 표준편차란?

합동 표준편차(pooled standard deviation)는 두 개 이상 집단의 분산 추정치를 결합하여 하나의 가중 추정치를 구하는 방법입니다. 등분산을 가정하는 독립표본 t-검정에서 필수적입니다.

개념은 간단합니다: 두 집단이 같은 모분산을 가진 모집단에서 왔다고 믿는다면, 두 집단의 데이터를 결합하여 공유 변동성의 더 나은 추정치를 얻을 수 있습니다. 데이터가 많을수록 추정치가 더 정밀해집니다.

이렇게 생각해 보세요: A 집단에서 20개, B 집단에서 30개의 관측이 있고, 두 집단이 같은 진짜 분산을 가진다면, 이제 더 작은 표본에서 따로 추정하는 대신 50개의 관측으로 그 분산을 추정할 수 있습니다.

언제 합동할까

모집단 분산이 같다고 믿을 만한 이유가 있을 때만 표준편차를 합동하세요. 합동 전에 Levene 검정이나 F-검정으로 이 가정을 확인하세요.

합동 SD 공식

두 집단에 대한 합동 표준편차는:

2집단 합동 SD

sp = √[((n₁-1)s₁² + (n₂-1)s₂²) / (n₁+n₂-2)]

여기서 n₁, n₂는 표본 크기, s₁, s₂는 표본 표준편차입니다.

k개 집단(ANOVA의 경우)으로 일반화하면:

다집단 합동 SD

sp = √[Σ(nᵢ-1)sᵢ² / Σ(nᵢ-1)]

공식에서 분자와 분모 모두 (n-1) 항을 사용합니다. 이 가중 방식은 큰 표본이 합동 추정에 더 많이 기여하도록 보장하며, 큰 표본이 더 신뢰성 있는 분산 추정을 제공하므로 적절합니다.

전제 조건

합동 표준편차는 등분산성(homogeneity of variance)을 가정합니다—모든 집단이 같은 모분산을 가진다는 것입니다. 이 가정은 다음의 경우에 특히 중요합니다:

  • 표본 크기가 불균등할 때 (특히 큰 집단의 분산이 작으면 문제)
  • 최대 분산과 최소 분산의 비율이 2-3을 초과할 때
  • 표본 크기가 작을 때 (큰 표본은 위반에 더 강건함)

분산이 다른 경우

분산이 같지 않다면 합동 t-검정 대신 Welch의 t-검정을 사용하거나 별도의 분산 추정치를 사용하세요. Welch 검정은 등분산을 가정하지 않으며 기본 접근법으로 자주 권장됩니다.

계산 예시

시나리오: 두 학급의 시험 점수 비교:

  • A반: n₁ = 25, 평균 = 78, s₁ = 12
  • B반: n₂ = 30, 평균 = 82, s₂ = 14

합동 SD 계산:

sp = √[((25-1)(12)² + (30-1)(14)²) / (25+30-2)] sp = √[(24×144 + 29×196) / 53] sp = √[(3456 + 5684) / 53] sp = √[9140 / 53] = √172.45 = 13.13

합동 SD 13.13은 개별 SD(12와 14) 사이에 위치하며, 더 큰 표본 쪽으로 가중됩니다. 이 합동 값은 t-검정 공식이나 Cohen의 d 계산에 사용됩니다.

통계적 응용

  • 독립표본 t-검정: 합동 SD로 평균 차이의 표준오차를 계산합니다.
  • Cohen의 d 효과 크기: 효과 크기는 합동 SD로 표준화됩니다: d = (M₁ - M₂) / sp
  • ANOVA: ANOVA의 오차 평균 제곱(MSE)은 본질적으로 모든 집단에 걸친 합동 분산 추정치입니다.
  • 메타분석: 연구들을 결합할 때 합동 추정치가 서로 다른 맥락의 효과를 표준화하는 데 도움을 줍니다.