중심극한정리 소개
중심극한정리(CLT: Central Limit Theorem)는 통계학에서 가장 중요한 개념 중 하나입니다. 정규분포가 자연에서 그토록 자주 나타나는 이유, 그리고 모집단이 정규분포가 아니어도 통계적 추론이 가능한 이유를 설명해 줍니다.
이 정리는 통계 실무에 깊은 영향을 미쳤습니다. CLT가 이해되기 전에는 통계학자들이 정규분포 데이터만 다룰 수 있었습니다. CLT는 원래 분포의 모양과 관계없이 표본 평균이 예측 가능하게 행동한다는 것을 보여줌으로써 통계학을 해방시켰고, 현대의 설문 조사, 품질 관리, 과학적 추론을 가능하게 만들었습니다.
핵심 통찰
이 놀라운 사실을 생각해 보세요: 이봉분포든, 극도로 비대칭이든, 균등분포든, 완전히 불규칙한 분포든—충분한 크기의 표본을 반복 추출하여 평균을 계산하면, 그 평균들이 진짜 모집단 평균을 중심으로 아름다운 종형 곡선을 형성합니다.
중심극한정리의 서술
평균 μ, 표준편차 σ인 모집단에서 크기 n의 무작위 표본을 추출하면, n이 증가할수록 표본 평균의 분포는 다음과 같은 정규분포에 접근합니다:
표본 평균의 분포
이것은 표본 크기가 충분히 크면(일반적으로 n ≥ 30) 어떤 모집단 분포에서도 성립합니다.
σ/√n을 평균의 표준오차라고 합니다. 표본 크기가 커질수록 감소한다는 점에 주목하세요. 큰 표본일수록 모집단 평균에 대한 더 정밀한 추정치를 제공합니다. 표본 크기를 4배로 늘리면 표준오차는 절반으로 줄어듭니다.
실무적 의미
CLT의 적용 조건
중심극한정리가 유효하려면 몇 가지 조건이 충족되어야 합니다:
- 1. 무작위 표본추출:각 표본은 모집단에서 무작위로 추출되어야 하며, 각 관측이 독립적이어야 합니다.
- 2. 표본 크기:일반적으로 n ≥ 30이면 대부분의 분포에서 작동합니다. 비대칭이 심한 모집단은 더 큰 표본이 필요하고, 대칭 모집단은 더 작은 표본으로도 될 수 있습니다.
- 3. 유한 적률:모집단의 평균 μ와 표준편차 σ가 유한해야 합니다. 코시 분포 같은 일부 이론적 분포는 이 조건을 위반합니다.
- 4. 독립성:비복원 추출 시 근사적 독립성을 보장하려면 표본이 모집단의 10% 미만이어야 합니다.
“n ≥ 30” 규칙은 엄격한 기준이 아니라 지침입니다. 대칭 분포(균등분포 등)에서는 n = 10으로 충분할 수 있습니다. 매우 비대칭인 분포에서는 n = 100 이상이 필요할 수도 있습니다. 확실하지 않을 때는 시뮬레이션이나 부트스트랩 방법으로 정규 근사의 타당성을 확인하세요.
CLT 작동 시각화
CLT를 제대로 이해하려면 공정한 주사위를 던지는 경우를 상상해 보세요. 주사위 한 번의 결과 분포는 균등분포로, 1부터 6까지 각 숫자의 확률이 같습니다(1/6). 이것은 정규분포와 전혀 다릅니다.
이제 주사위를 두 번 던져 평균을 구한다고 상상해 보세요. 두 번의 평균은 1(둘 다 1)에서 6(둘 다 6)까지 가능하지만, 3.5 같은 중간 값이 더 높은 확률로 나타납니다. 이미 중앙에 뾰족해지는 형태가 나타나기 시작합니다.
주사위를 30번 던져 평균을 구하면? 그 평균은 3.5에 매우 가깝고, 이 실험을 수천 번 반복하면 평균들이 3.5를 중심으로 표준편차 σ/√30 ≈ 1.71/5.48 ≈ 0.31인 거의 완벽한 종형 곡선을 형성합니다.
직접 해보세요
실전 응용
CLT는 신뢰구간, 가설검정 등 많은 통계 방법의 기초입니다. Z-점수와 t-점수를 사용해 모집단 모수에 대한 추론을 가능하게 합니다.
설문 조사: 정치 여론조사, 시장 조사, 공중보건 설문 모두 CLT에 의존합니다. 여론조사에서 후보 지지율이 48%이고 오차한계가 3%라고 할 때, 그 오차한계는 CLT에서 도출된 표준오차 공식으로 계산됩니다.
품질 관리: 제조 공정에서 CLT 기반의 관리도를 사용합니다. 생산 배치의 표본 평균이 특정 한계(보통 공정 평균 ±3 표준오차) 이내에 있을 것으로 기대되며, 이 범위를 벗어나면 잠재적 문제를 의미합니다.
A/B 테스트: IT 기업이 새 기능을 테스트할 때 그룹 간 전환율을 비교합니다. CLT 덕분에 개별 사용자의 행동은 이진적(전환 여부)이지만, 수천 명의 사용자에 걸친 평균 전환율은 정규분포를 따르게 되어 통계적 비교가 가능해집니다.
과학 연구: 의학 시험, 심리학 실험, 그리고 거의 모든 정량적 연구가 표본 데이터로부터 p-값과 신뢰구간을 산출하기 위해 CLT에 의존합니다.
흔한 오해
오해 #1
오해 #2: “n = 30은 항상 작동하는 마법의 숫자다.” 실제로 필요한 표본 크기는 모집단이 얼마나 비정규인지에 따라 다릅니다. 대칭 분포는 더 작은 표본이, 극도로 비대칭이거나 두꺼운 꼬리를 가진 분포는 더 큰 표본이 필요합니다.
오해 #3: “CLT는 모든 분포에 적용된다.” CLT는 유한한 평균과 분산을 필요로 합니다. 코시 분포처럼 분산이 정의되지 않는 분포에서는 표본 크기와 관계없이 CLT가 성립하지 않습니다.
오해 #4: “통계 방법을 사용하기 전에 데이터가 정규분포인지 확인해야 한다.” CLT 덕분에 충분히 큰 표본의 평균을 다루는 한, 비정규 데이터에서도 많은 통계 절차가 잘 작동합니다. 비정규성에 대한 통계 방법의 강건성은 CLT의 가장 큰 선물 중 하나입니다.