統計術語表
關鍵統計術語和定義
標準差 (σ / s)
衡量一組值中變異或離散程度的指標。它是變異數的平方根,以與資料相同的單位表示。
變異數 (σ² / s²)
偏離平均值的平方差的平均值。變異數量化資料集中的離散程度,是標準差的平方。
平均值 (μ / x̄)
一組值的算術平均值,透過將所有值相加並除以數量來計算。它代表資料的集中趨勢。
中位數
排序資料集中的中間值。如果值的數量為偶數,中位數是兩個中間值的平均值。它不受離群值影響。
眾數
資料集中出現頻率最高的值。資料集可以有一個眾數(單峰)、多個眾數(多峰)或沒有眾數。
全距
資料集中最大值和最小值之間的差。雖然計算簡單,但它只考慮兩個極端值,且對離群值敏感。
母體
研究中感興趣的所有個體或觀測值的完整集合。母體參數通常用希臘字母 (μ, σ) 表示。
樣本
從母體中選取用於分析的子集。樣本統計量通常用拉丁字母 (x̄, s) 表示,用於估計母體參數。
貝塞爾校正
在計算樣本變異數時,分母使用 n−1 而不是 n。這種校正提供了從樣本對母體變異數的不偏估計。
常態分佈
一種對稱的鐘形機率分佈,其中平均值、中位數和眾數都相等。許多自然現象近似服從常態分佈。
經驗法則 (68-95-99.7)
對於常態分佈的資料,大約 68% 的值落在 ±1σ 內,95% 落在 ±2σ 內,99.7% 落在 ±3σ 內。
Z 分數
資料點距離平均值的標準差個數,計算公式為 Z = (X − μ) / σ。Z 分數允許比較來自不同分佈的值。
標準誤差 (SE)
統計量抽樣分佈的標準差,最常見的是平均值的標準誤差。SE = σ/√n,隨樣本量增大而減小。
信賴區間
在指定的信賴水準(如 95%)下可能包含真實母體參數的值的範圍。更寬的區間表示更低的精確度。
離群值
與其他觀測值有顯著差異的資料點。常見的偵測方法包括超出平均值 ±2 或 ±3 個標準差的值。
變異係數 (CV)
標準差與平均值的比率,以百分比表示 (CV = σ/μ × 100%)。它允許比較不同量度的資料集之間的變異性。
偏度
機率分佈不對稱性的度量。正偏度表示尾部向右延伸;負偏度表示尾部向左延伸。
峰度
機率分佈尾部特徵的度量。高峰度表示重尾和尖銳的峰值;低峰度表示輕尾和平坦的峰值。
自由度 (df)
在統計計算中可以自由變化的獨立值的數量。對於樣本標準差,df = n − 1,反映了貝塞爾校正。
中央極限定理
指出無論母體分佈如何,樣本平均值的抽樣分佈隨著樣本量的增加而趨近於常態分佈。
假設檢定
基於資料做出決策的統計方法。它涉及將檢定統計量與臨界值或 p 值進行比較,以確定是否拒絕虛無假設。
P 值
假設虛無假設為真,觀察到與檢定統計量一樣極端的結果的機率。較小的 p 值提供了反對虛無假設的更強證據。
相關係數 (r)
介於 −1 和 1 之間的值,衡量兩個變數之間線性關係的強度和方向。接近 ±1 的值表示強線性關係。
四分位距 (IQR)
第 75 百分位數 (Q3) 與第 25 百分位數 (Q1) 之間的差。IQR 衡量中間 50% 資料的離散程度,不受離群值影響。
百分位數
給定百分比的觀測值落在其下的值。例如,第 90 百分位數是 90% 的資料點在其下方的值。