기하 표준편차를 사용할 때
기하 표준편차(GSD: Geometric Standard Deviation)는 데이터가 가산적이 아닌 승산적(곱셈적)인 경우—성장률, 비율, 농도, 또는 로그정규 분포를 따르는 측정값—에 적합한 산포 측도입니다.
주식 수익률을 생각해 보세요: 10% 상승 후 10% 하락은 원래 금액으로 돌아오지 않습니다(원래의 99%가 됩니다). 이런 승산적 관계에는 산술 통계 대신 기하 통계가 필요합니다.
핵심 통찰
로그정규 데이터 이해하기
데이터의 자연로그가 정규분포를 따를 때 로그정규 분포라고 합니다. 대표적인 예는 다음과 같습니다:
- 주가와 투자 수익률의 시간 경과
- 소득 및 재산 분포
- 에어로졸과 의약품의 입자 크기
- 세균 집락 수와 바이러스 부하
- 환경 오염물질 농도
- 항체 역가와 약물 농도
핵심 특징: 반복적인 곱셈이 관여하는 과정이 로그정규 분포를 만들어냅니다. 반복적인 덧셈이 정규분포를 만드는 것과 같은 원리입니다.
공식과 계산
기하 표준편차
더 간단히 말하면: 모든 값의 자연로그를 구하고, 일반 표준편차를 계산한 뒤, 지수함수를 적용합니다.
데이터 변환
평균 계산
SD 계산
역변환
import numpy as np
from scipy import stats
def geometric_sd(data):
"""Calculate geometric standard deviation"""
log_data = np.log(data)
sd_log = np.std(log_data, ddof=1)
return np.exp(sd_log)
def geometric_mean(data):
"""Calculate geometric mean"""
return stats.gmean(data)
# Example: Antibody titers (highly variable, log-normal)
titers = [64, 128, 256, 128, 512, 64, 256]
gm = geometric_mean(titers)
gsd = geometric_sd(titers)
print(f"Geometric Mean: {gm:.1f}")
print(f"Geometric SD: {gsd:.2f}")GSD 값 해석
데이터와 같은 단위인 산술 SD와 달리, GSD는 승수(곱셈 인자)—비율입니다. GSD가 2.0이면 데이터가 일반적으로 2배 범위 내에서 변동한다는 의미입니다.
- GSD = 1.0:변동 없음 (실무에서 불가능)
- GSD ≈ 1.2:낮은 변동성 (±20% 수준)
- GSD ≈ 2.0:보통 변동성 (데이터가 2배/반으로 변동)
- GSD ≈ 3.0:높은 변동성 (10배 범위)
신뢰구간
실전 응용
제약 과학
금융 & 경제
GSD vs 일반 SD
로그정규 데이터에 산술 SD를 사용하면 오해의 소지가 있는 결과가 나옵니다:
예시: 바이러스 부하 데이터
항상 분포를 확인하세요