산포를 측정하는 두 가지 방법
범위와 표준편차 모두 데이터가 얼마나 퍼져 있는지를 측정하지만, 산포의 근본적으로 다른 측면을 포착합니다. 각각을 언제 사용할지 아는 것이 올바른 데이터 분석의 핵심입니다.
범위는 극단값에 대해 알려줍니다—최댓값과 최솟값이 얼마나 떨어져 있는지입니다. 표준편차는 평균 주위의 전형적인 퍼짐에 대해 알려줍니다. 둘 다 유용하지만 목적이 다릅니다.
빠른 판단 가이드
극단값이 중요할 때(품질 관리 한계, 온도 변동)는 범위를 사용하세요. 전형적인 변동성과 통계적 엄밀성이 필요할 때는 표준편차를 사용하세요.
정의와 공식
범위
범위 = 최댓값 - 최솟값
가장 간단한 산포 측도. 데이터 크기와 관계없이 두 값만 고려합니다.
표준편차
s = √[Σ(xᵢ - x̄)² / (n-1)]
모든 데이터를 사용하여 평균으로부터의 평균 거리를 측정합니다.
직접 비교
범위의 장단점
장점:
- 계산이 매우 간단—뺄셈 한 번
- 이해하고 전달하기 쉬움
- 데이터의 전체 폭을 직접 보여줌
- 빠른 품질 점검에 유용
단점:
- 중간값을 모두 무시
- 이상치에 극도로 민감
- 표본 크기가 커질수록 증가하는 경향
- 통계적으로 비효율적
SD의 장단점
장점:
- 모든 데이터를 활용
- 통계적으로 효율적이고 안정적
- 표본 크기가 커져도 안정
- 고급 통계의 기반
단점:
- 수작업 계산이 복잡
- 비전문가에게는 덜 직관적
- 중요한 극단값을 숨길 수 있음
- 이상치의 영향을 여전히 받음 (MAD 대안 사용)
언제 어떤 것을 쓸까
범위를 사용할 때:
- 퍼짐의 대략적인 빠른 추정이 필요할 때
- 극단값이 중요할 때 (예: HVAC 설계를 위한 온도 범위)
- 이상치가 없는 깨끗한 데이터인 것이 확인된 경우
- 통계에 익숙하지 않은 대상과 소통할 때
- 표본 크기가 작고 고정된 경우 (모든 비교에서 같은 크기)
표준편차를 사용할 때:
- 통계 분석이나 가설검정을 수행할 때
- 서로 다른 표본 크기의 변동성을 비교할 때
- 신뢰구간이나 p-값을 계산할 때
- 극단값이 아닌 전형적인 변동을 평가할 때
- 데이터에 측정을 지배해서는 안 될 이상치가 있을 수 있을 때
실전 예시
예시: 일일 기온
데이터: 72°F, 75°F, 74°F, 73°F, 76°F, 71°F, 74°F
범위: 76 - 71 = 5°F (기온 변동폭)
SD: 1.72°F (전형적인 일간 변동)
둘 다 유용합니다—범위는 HVAC 용량 설계에, SD는 쾌적성 일관성 평가에 쓸 수 있습니다.
예시: 이상치가 있는 시험 점수
데이터: 85, 88, 87, 86, 89, 42 (한 학생이 공부를 안 함)
범위: 89 - 42 = 47점 (이상치에 지배됨!)
SD: 17.4점 (영향을 받지만 덜함)
범위는 오해의 소지가 있습니다. SD를 사용하거나 이상치를 제거하는 것을 고려하세요.
심화 내용
범위와 SD의 관계: 정규분포 데이터에서 범위 ≈ 4-6 × SD (일반적인 표본 크기 기준). 이를 통해 대략적인 환산이 가능합니다.
사분위수 범위(IQR): 최댓값-최솟값 대신 Q3 - Q1을 사용하는 절충안입니다. 범위보다 강건하면서도 SD보다 간단합니다.
모범 사례
적절할 때 두 측도를 함께 보고하세요. “기온 범위는 15°F(SD = 4.2°F)였습니다”라고 하면 독자에게 극단값과 전형적 변동 모두에 대한 완전한 정보를 제공합니다.