Σ
SDCalc
中級Fundamentals·9 min

統計學基礎入門必讀:標準差與變異數的關鍵差異全解析,包含公式比較、母體與樣本差異及資料分析實務應用。

在統計學與資料分析領域中,標準差與變異數到底有何不同?本文將帶你徹底搞懂這兩個衡量數據離散程度指標的關鍵差異,詳細解析母體與樣本公式的計算區別(包含自由度與貝氏校正原理),並深入探討它們在變異數分析、投資組合風險評估與經驗法則等實務場景中的最佳應用時機,幫助你精準解讀數據背後的真正意義。

By Standard Deviation Calculator Team · Data Science Team·Published

什麼是變異數?

變異數(母體記為 σ²,樣本記為 s²)是衡量資料集中數值之間離散程度的統計量。它代表各數值與平均值(μ)之間差異的平方的平均值。透過將離差平方,變異數確保了正負離差不會互相抵銷,從而真實反映資料的離散程度。然而,正因為離差經過了平方處理,變異數的單位會變成原始資料單位的平方,這使得它在直觀解釋上變得較為抽象。

母體變異數

σ² = Σ(xᵢ - μ)² / N

單位差異

如果你的資料是身高(公分),變異數的單位就會變成平方公分(cm²)。這種平方後的單位,正是變異數在真實世界情境中難以直觀解釋的主要原因之一。

什麼是標準差?

標準差(母體記為 σ,樣本記為 s)是變異數的平方根。它衡量的是個別資料點偏離平均值的平均幅度。因為標準差是將變異數開平方根求得,所以它的單位與原始資料相同,這讓它在實際應用中更直觀、更容易解讀。標準差也是統計學中最被廣泛使用的離散程度衡量指標。

母體標準差

σ = √(Σ(xᵢ - μ)² / N)

標準差與變異數的核心差異

雖然這兩個指標都在量化資料點圍繞平均值的離散程度,但它們的數學關係與實用性卻大不相同。最根本的差異在於單位與可解讀性。標準差是變異數的平方根,這個動作將離散度的衡量拉回了原始資料的單位;而變異數因為是平方後的數值,會不成比例地放大離群值的影響,這使得它對極端值非常敏感。

特徵變異數 (σ² / s²)標準差 (σ / s)
數學基礎離差平方的平均變異數的平方根
單位平方單位(如 cm², NT$²)原始單位(如 cm, NT$)
可解讀性較抽象;難以與原始資料直接對應直觀;能直接對應原始資料
對離群值的敏感度高(因為平方運算)中等(開平方根減緩了影響)
主要用途統計推論、變異數分析、投資組合理論敘述統計、數據報告、經驗法則

母體與樣本公式

在計算這些指標時,你必須區分母體樣本。母體包含特定群體中的所有成員,而樣本僅是母體的一個子集。在樣本公式中使用 (n - 1) 作為分母——這稱為貝氏校正——能修正從樣本推估母體變異數時的先天偏差,確保估計式是不偏的。

樣本變異數

s² = Σ(xᵢ - x̄)² / (n - 1)

避開 n 與 n-1 的陷阱

計算樣本變異數時,若使用 'n' 而非 '(n - 1)',系統性地低估真實的母體變異數。當你使用樣本資料來推論母體參數時,請務必使用自由度(df = n - 1)。

何時該使用變異數或標準差?

選擇使用變異數還是標準差,完全取決於你的分析目標。如果你需要向非技術背景的受眾傳達資料的離散程度,標準差絕對是首選,因為它與資料的原始單位一致。然而,如果你正在進行統計的中間運算——例如在變異數分析中計算 F 統計量、評估現代投資組合理論的風險,或進行假設檢定——變異數在數學處理上會更加方便。

使用變異數的時機...

- 進行變異數分析或 F 檢定 - 計算投資組合風險(共變異數矩陣) - 進行統計理論推導 - 開發機器學習的損失函數(如 MSE)

使用標準差的時機...

- 在報告中呈現資料的離散程度 - 應用經驗法則(68-95-99.7 法則) - 建立品質管控的管制圖 - 向非技術背景的利害關係人溝通變異性

用 Python 計算標準差與變異數

Python 的 `statistics` 模組提供了計算變異數與標準差的內建函式。在使用這些函式時,根據你的資料是母體還是樣本來選擇正確的方法,是至關重要的步驟。

python
import statistics

# 範例資料集
data = [14, 18, 12, 15, 11]

# 計算樣本變異數與標準差
sample_var = statistics.variance(data)
sample_sd = statistics.stdev(data)

# 計算母體變異數與標準差
pop_var = statistics.pvariance(data)
pop_sd = statistics.pstdev(data)

print(f"Sample Variance: {sample_var:.2f}")
print(f"Sample SD: {sample_sd:.2f}")
print(f"Population Variance: {pop_var:.2f}")
print(f"Population SD: {pop_sd:.2f}")

常見問題

  • 變異數可以是負數嗎?不行,因為離差平方和 (xᵢ - μ)² 永遠大於或等於零,所以變異數絕不可能是負數。
  • 為什麼在報告中,標準差比變異數更常被使用?因為標準差與平均數的單位相同,這使得它更容易與原始資料放在一起解讀與理解。
  • 變異數和均方誤差(MSE)一樣嗎?兩者很類似,但 MSE 衡量的是估計值與實際值之間的平方誤差平均,而變異數衡量的是圍繞平均值的離散程度。如果估計式剛好就是平均數,那麼 MSE 就等於變異數。

Further Reading

Sources

References and further authoritative reading used in preparing this article.

  1. 標準差 - 維基百科
  2. NIST/SEMATECH 統計方法電子手冊