Σ
SDCalc
고급이론·15 min

왜도와 첨도: 표준편차 너머의 세계

평균과 표준편차 너머 분포의 형태를 설명하는 세 번째와 네 번째 적률인 왜도와 첨도에 대해 알아봅니다.

평균과 표준편차 너머

평균과 표준편차가 중심과 퍼짐을 설명하는 반면, 왜도첨도는 분포의 형태—비대칭성과 꼬리 두께—를 설명합니다.

통계에서 분포는 “적률(moment)”을 사용하여 설명합니다—형태의 서로 다른 측면을 포착하는 수학적 요약입니다:

  • 1차 적률:평균 (중심 경향)
  • 2차 적률:분산/표준편차 (퍼짐)
  • 3차 적률:왜도 (비대칭성)
  • 4차 적률:첨도 (꼬리 두께)

두 분포가 평균과 표준편차가 동일하면서도 완전히 다른 모양일 수 있습니다. 왜도와 첨도는 이런 차이를 포착하여 데이터 분포의 더 완전한 그림을 제공합니다.

왜도: 비대칭성 측정

왜도는 분포가 얼마나 비대칭인지를 측정합니다. 양의 왜도는 오른쪽 꼬리가 긴 것(예: 소득 분포)을, 음의 왜도는 왼쪽 꼬리가 긴 것을 의미합니다.

표본 왜도

g₁ = [n/((n-1)(n-2))] × Σ[(xᵢ - x̄)/s]³
  • 왜도 = 0:대칭 분포 (정규분포, 균등분포)
  • 왜도 > 0:오른쪽 치우침—평균이 중앙값보다 큼 (소득, 주택 가격)
  • 왜도 < 0:왼쪽 치우침—중앙값이 평균보다 큼 (은퇴 연령, 상한이 있는 시험 점수)

흔한 오른쪽 치우침 데이터

많은 현실 현상이 오른쪽으로 치우쳐 있습니다: 소득, 재산, 기업 규모, 도시 인구, 보험 청구액, 대기 시간 등. 이런 경우 극단적인 값이 평균을 끌어올리므로 중앙값이 “전형적”인 값의 더 나은 측도가 됩니다.

해석 지침:

  • |왜도| < 0.5: 대략 대칭
  • 0.5 ≤ |왜도| < 1: 중간 정도 치우침
  • |왜도| ≥ 1: 심하게 치우침

첨도: 꼬리 두께

첨도는 정규분포에 비해 꼬리가 얼마나 두꺼운지 또는 얇은지를 측정합니다. 높은 첨도는 극단값이 더 많다는 것(두꺼운 꼬리)을, 낮은 첨도는 적다는 것을 의미합니다.

첨도가 “뾰족함”을 측정한다는 것은 흔한 오해입니다. 관련은 있지만, 첨도는 근본적으로 꼬리에 관한 것입니다. 첨도가 높은 분포는 꼬리와 꼭짓점에 더 많은 확률 질량이 있지만, “어깨” 부분에는 적습니다.

초과 첨도

g₂ = [n(n+1)/((n-1)(n-2)(n-3))] × Σ[(xᵢ - x̄)/s]⁴ - 3(n-1)²/((n-2)(n-3))
  • 정규첨도 (k ≈ 0):정규분포와 비슷한 꼬리 (비교 기준)
  • 과첨도 (k > 0):두꺼운 꼬리, 정규분포보다 극단값이 많음 (주식 수익률, 지진)
  • 저첨도 (k < 0):얇은 꼬리, 정규분포보다 극단값이 적음 (균등분포, 범위가 제한된 데이터)

금융에서의 두꺼운 꼬리

금융 수익률은 높은 첨도(“두꺼운 꼬리”)를 보이는 것으로 유명합니다. 정규분포 가정에 기반하면 100년에 한 번 있을 사건이 실제로는 훨씬 자주 발생합니다. 첨도를 무시하면 위험을 과소추정하게 되는데, 이는 많은 금융 위기에서 얻은 교훈입니다.

실전 응용

위험 관리: 높은 첨도는 극단적 결과가 더 자주 발생한다는 뜻입니다. 정규성을 가정하는 VaR 등의 위험 측도는 첨도가 높을 때 실제 위험을 크게 과소추정할 수 있습니다.

품질 관리: 높은 첨도의 제조 데이터는 평균 성능이 양호해도 간헐적으로 목표에서 크게 벗어나는 경우가 있음을 시사합니다. 이 패턴은 조사가 필요한 공정 불안정을 나타낼 수 있습니다.

데이터 변환: 심하게 비대칭인 데이터는 분석 전에 변환(로그, 제곱근)하면 도움이 될 수 있습니다. 목표는 정규성을 가정하는 통계 검정을 위해 근사적 정규성을 달성하는 것입니다.

통계적 검정: 많은 검정이 정규성을 가정합니다. 유의한 왜도나 첨도는 이 가정이 위반되었음을 나타내며, 비모수적 대안이나 로버스트 방법 사용을 제안합니다.

해석 지침

정규성 검정: Jarque-Bera 검정은 왜도와 첨도를 결합하여 정규성을 검정합니다. 두 지표 중 하나라도 0에서 유의하게 벗어나면 정규성을 기각합니다.

표본 크기 고려사항: 작은 표본에서는 왜도와 첨도의 추정이 불안정합니다. n < 50이면 이 통계량의 표본 변동성이 크고, n < 20이면 사실상 의미가 없습니다.

강건성: 왜도와 첨도 모두 이상치에 민감합니다. 단 하나의 극단값이 이 통계량에 극적인 영향을 줄 수 있으므로, 수치 요약과 함께 항상 데이터를 시각화하세요.