統計用語集

主要な統計用語と定義

general

標準偏差 (σ / s)

値の集合における変動または分散の量を示す尺度。分散の平方根であり、データと同じ単位で表されます。

分散 (σ² / s²)

平均からの偏差の二乗の平均。分散はデータセットにおける散らばりの程度を数値化し、標準偏差の二乗です。

平均値 (μ / x̄)

値の集合の算術平均で、すべての値を合計して個数で割ることで計算されます。データの中心傾向を表します。

中央値

ソートされたデータセットの中央の値。値の数が偶数の場合、中央値は2つの中央値の平均です。外れ値に対して頑健です。

最頻値

データセットで最も頻繁に出現する値。データセットは1つの最頻値（単峰性）、複数の最頻値（多峰性）、または最頻値なしの場合があります。

範囲

データセットの最大値と最小値の差。計算は簡単ですが、2つの極端な値のみを考慮し、外れ値に敏感です。

母集団

研究における関心のあるすべての個体または観測の完全な集合。母集団パラメータは通常ギリシャ文字（μ, σ）で表記されます。

標本

分析のために選択された母集団の部分集合。標本統計量は通常ラテン文字（x̄, s）で表記され、母集団パラメータを推定するために使用されます。

ベッセルの補正

標本分散の計算において分母にnではなくn−1を使用すること。この補正により、標本から母集団分散の不偏推定量が得られます。

正規分布

平均、中央値、最頻値がすべて等しい、対称的なベル型の確率分布。多くの自然現象はほぼ正規分布に従います。

経験則 (68-95-99.7)

正規分布するデータでは、値の約68%が±1σ以内、95%が±2σ以内、99.7%が±3σ以内に収まります。

Zスコア

データ点が平均から何標準偏差離れているかを示し、Z = (X − μ) / σで計算されます。Zスコアにより、異なる分布の値を比較できます。

標準誤差 (SE)

統計量（最も一般的には平均）の標本分布の標準偏差。SE = σ/√n で、標本サイズが大きくなると減少します。

信頼区間

指定された信頼水準（例：95%）で真の母集団パラメータを含む可能性が高い値の範囲。幅の広い区間は精度が低いことを示します。

外れ値

他の観測値と著しく異なるデータ点。一般的な検出方法には、平均から±2または±3標準偏差を超える値が含まれます。

変動係数 (CV)

標準偏差と平均の比率をパーセンテージで表したもの（CV = σ/μ × 100%）。異なるスケールのデータセット間で変動性を比較できます。

歪度

確率分布の非対称性の尺度。正の歪度は右にテールが伸びることを意味し、負の歪度は左に伸びることを意味します。

尖度

確率分布のテールの厚さの尺度。高い尖度は重いテールと鋭いピークを示し、低い尖度は軽いテールと平らなピークを示します。

自由度 (df)

統計計算において自由に変化できる独立した値の数。標本標準偏差の場合、df = n − 1 で、ベッセルの補正を反映しています。

中心極限定理

標本サイズが大きくなると、母集団の分布に関係なく、標本平均の標本分布が正規分布に近づくことを述べています。

仮説検定

データに基づいて意思決定を行うための統計的方法。帰無仮説を棄却すべきかどうかを判断するために、検定統計量を臨界値またはp値と比較します。

P値

帰無仮説が真であると仮定した場合に、検定統計量と同じくらい極端な結果が観察される確率。小さいp値は帰無仮説に対するより強い証拠を提供します。

相関係数 (r)

2つの変数間の線形関係の強さと方向を測定する−1から1の間の値。±1に近い値は強い線形関係を示します。

四分位範囲 (IQR)

第75パーセンタイル（Q3）と第25パーセンタイル（Q1）の差。IQRはデータの中央50%の散らばりを測定し、外れ値に対して頑健です。

パーセンタイル

観測値の指定されたパーセンテージがその値以下に収まる値。例えば、第90パーセンタイルはデータ点の90%がその値以下にある値です。