統計術語表

關鍵統計術語和定義

general

標準差 (σ / s)

衡量一組值中變異或離散程度的指標。它是變異數的平方根，以與資料相同的單位表示。

變異數 (σ² / s²)

偏離平均值的平方差的平均值。變異數量化資料集中的離散程度，是標準差的平方。

平均值 (μ / x̄)

一組值的算術平均值，透過將所有值相加並除以數量來計算。它代表資料的集中趨勢。

中位數

排序資料集中的中間值。如果值的數量為偶數，中位數是兩個中間值的平均值。它不受離群值影響。

眾數

資料集中出現頻率最高的值。資料集可以有一個眾數（單峰）、多個眾數（多峰）或沒有眾數。

全距

資料集中最大值和最小值之間的差。雖然計算簡單，但它只考慮兩個極端值，且對離群值敏感。

母體

研究中感興趣的所有個體或觀測值的完整集合。母體參數通常用希臘字母 (μ, σ) 表示。

樣本

從母體中選取用於分析的子集。樣本統計量通常用拉丁字母 (x̄, s) 表示，用於估計母體參數。

貝塞爾校正

在計算樣本變異數時，分母使用 n−1 而不是 n。這種校正提供了從樣本對母體變異數的不偏估計。

常態分佈

一種對稱的鐘形機率分佈，其中平均值、中位數和眾數都相等。許多自然現象近似服從常態分佈。

經驗法則 (68-95-99.7)

對於常態分佈的資料，大約 68% 的值落在 ±1σ 內，95% 落在 ±2σ 內，99.7% 落在 ±3σ 內。

Z 分數

資料點距離平均值的標準差個數，計算公式為 Z = (X − μ) / σ。Z 分數允許比較來自不同分佈的值。

標準誤差 (SE)

統計量抽樣分佈的標準差，最常見的是平均值的標準誤差。SE = σ/√n，隨樣本量增大而減小。

信賴區間

在指定的信賴水準（如 95%）下可能包含真實母體參數的值的範圍。更寬的區間表示更低的精確度。

離群值

與其他觀測值有顯著差異的資料點。常見的偵測方法包括超出平均值 ±2 或 ±3 個標準差的值。

變異係數 (CV)

標準差與平均值的比率，以百分比表示 (CV = σ/μ × 100%)。它允許比較不同量度的資料集之間的變異性。

偏度

機率分佈不對稱性的度量。正偏度表示尾部向右延伸；負偏度表示尾部向左延伸。

峰度

機率分佈尾部特徵的度量。高峰度表示重尾和尖銳的峰值；低峰度表示輕尾和平坦的峰值。

自由度 (df)

在統計計算中可以自由變化的獨立值的數量。對於樣本標準差，df = n − 1，反映了貝塞爾校正。

中央極限定理

指出無論母體分佈如何，樣本平均值的抽樣分佈隨著樣本量的增加而趨近於常態分佈。

假設檢定

基於資料做出決策的統計方法。它涉及將檢定統計量與臨界值或 p 值進行比較，以確定是否拒絕虛無假設。

P 值

假設虛無假設為真，觀察到與檢定統計量一樣極端的結果的機率。較小的 p 值提供了反對虛無假設的更強證據。

四分位距 (IQR)

第 75 百分位數 (Q3) 與第 25 百分位數 (Q1) 之間的差。IQR 衡量中間 50% 資料的離散程度，不受離群值影響。

百分位數

給定百分比的觀測值落在其下的值。例如，第 90 百分位數是 90% 的資料點在其下方的值。