통계 용어집

주요 통계 용어 및 정의

general

표준편차 (σ / s)

값의 집합에서 변동 또는 분산의 정도를 나타내는 측정값입니다. 분산의 제곱근이며 데이터와 동일한 단위로 표현됩니다.

분산 (σ² / s²)

평균으로부터의 편차 제곱의 평균입니다. 분산은 데이터 세트의 분산 정도를 수치화하며 표준편차의 제곱입니다.

평균 (μ / x̄)

모든 값을 합산하고 개수로 나누어 계산하는 산술 평균입니다. 데이터의 중심 경향을 나타냅니다.

중앙값

정렬된 데이터 세트의 중간 값입니다. 값의 수가 짝수인 경우 중앙값은 두 중간 값의 평균입니다. 이상값에 강합니다.

최빈값

데이터 세트에서 가장 자주 나타나는 값입니다. 데이터 세트는 하나의 최빈값(단봉), 여러 최빈값(다봉), 또는 최빈값이 없을 수 있습니다.

범위

데이터 세트에서 최대값과 최소값의 차이입니다. 계산은 간단하지만 두 극단값만 고려하며 이상값에 민감합니다.

모집단

연구에서 관심 있는 모든 개체 또는 관측값의 전체 집합입니다. 모집단 모수는 일반적으로 그리스 문자(μ, σ)로 표기됩니다.

표본

분석을 위해 선택된 모집단의 부분 집합입니다. 표본 통계량은 일반적으로 라틴 문자(x̄, s)로 표기되며 모집단 모수를 추정하는 데 사용됩니다.

베셀의 보정

표본 분산을 계산할 때 분모에 n 대신 n−1을 사용하는 것입니다. 이 보정은 표본으로부터 모집단 분산의 비편향 추정치를 제공합니다.

정규 분포

평균, 중앙값, 최빈값이 모두 같은 대칭적인 종 모양의 확률 분포입니다. 많은 자연 현상이 대략 정규 분포를 따릅니다.

경험적 법칙 (68-95-99.7)

정규 분포 데이터의 경우, 약 68%의 값이 ±1σ 이내, 95%가 ±2σ 이내, 99.7%가 평균의 ±3σ 이내에 위치합니다.

Z-점수

데이터 포인트가 평균으로부터 몇 표준편차 떨어져 있는지를 나타내며, Z = (X − μ) / σ로 계산됩니다. Z-점수는 서로 다른 분포의 값을 비교할 수 있게 합니다.

표준 오차 (SE)

통계량, 가장 일반적으로 평균의 표본 분포의 표준편차입니다. SE = σ/√n이며, 표본 크기가 증가할수록 감소합니다.

신뢰 구간

지정된 신뢰 수준(예: 95%)으로 진정한 모집단 모수를 포함할 가능성이 있는 값의 범위입니다. 구간이 넓을수록 정밀도가 낮음을 나타냅니다.

이상값

다른 관측값과 현저히 다른 데이터 포인트입니다. 일반적인 탐지 방법에는 평균으로부터 ±2 또는 ±3 표준편차를 초과하는 값이 포함됩니다.

변동계수 (CV)

표준편차와 평균의 비율을 백분율로 표현한 것입니다(CV = σ/μ × 100%). 서로 다른 척도의 데이터 세트 간 변동성을 비교할 수 있게 합니다.

왜도

확률 분포의 비대칭성을 측정합니다. 양의 왜도는 꼬리가 오른쪽으로 확장됨을 의미하고, 음의 왜도는 왼쪽으로 확장됨을 의미합니다.

첨도

확률 분포의 꼬리 두께를 측정합니다. 높은 첨도는 두꺼운 꼬리와 뾰족한 봉우리를 나타내고, 낮은 첨도는 얇은 꼬리와 평평한 봉우리를 나타냅니다.

자유도 (df)

통계 계산에서 자유롭게 변할 수 있는 독립적인 값의 수입니다. 표본 표준편차의 경우 df = n − 1이며, 이는 베셀의 보정을 반영합니다.

중심극한정리

모집단의 분포에 관계없이 표본 크기가 증가할수록 표본 평균의 표본 분포가 정규 분포에 근접한다는 정리입니다.

가설 검정

데이터에 기반하여 의사결정을 내리는 통계적 방법입니다. 검정 통계량을 임계값 또는 p-값과 비교하여 귀무가설을 기각할지 여부를 결정합니다.

P-값

귀무가설이 참이라고 가정할 때 검정 통계량만큼 극단적인 결과를 관측할 확률입니다. p-값이 작을수록 귀무가설에 대한 더 강력한 증거를 제공합니다.

상관계수 (r)

두 변수 간 선형 관계의 강도와 방향을 측정하는 −1과 1 사이의 값입니다. ±1에 가까운 값은 강한 선형 관계를 나타냅니다.

사분위 범위 (IQR)

75번째 백분위수(Q3)와 25번째 백분위수(Q1)의 차이입니다. IQR은 데이터의 중간 50%의 분산을 측정하며 이상값에 강합니다.

백분위수

주어진 비율의 관측값이 그 아래에 위치하는 값입니다. 예를 들어, 90번째 백분위수는 데이터 포인트의 90%가 그 아래에 있는 값입니다.