什麼是變異數?
變異數(母體記為 σ²,樣本記為 s²)是衡量資料集中數值之間離散程度的統計量。它代表各數值與平均值(μ)之間差異的平方的平均值。透過將離差平方,變異數確保了正負離差不會互相抵銷,從而真實反映資料的離散程度。然而,正因為離差經過了平方處理,變異數的單位會變成原始資料單位的平方,這使得它在直觀解釋上變得較為抽象。
母體變異數
單位差異
什麼是標準差?
標準差(母體記為 σ,樣本記為 s)是變異數的平方根。它衡量的是個別資料點偏離平均值的平均幅度。因為標準差是將變異數開平方根求得,所以它的單位與原始資料相同,這讓它在實際應用中更直觀、更容易解讀。標準差也是統計學中最被廣泛使用的離散程度衡量指標。
母體標準差
標準差與變異數的核心差異
雖然這兩個指標都在量化資料點圍繞平均值的離散程度,但它們的數學關係與實用性卻大不相同。最根本的差異在於單位與可解讀性。標準差是變異數的平方根,這個動作將離散度的衡量拉回了原始資料的單位;而變異數因為是平方後的數值,會不成比例地放大離群值的影響,這使得它對極端值非常敏感。
| 特徵 | 變異數 (σ² / s²) | 標準差 (σ / s) |
|---|---|---|
| 數學基礎 | 離差平方的平均 | 變異數的平方根 |
| 單位 | 平方單位(如 cm², NT$²) | 原始單位(如 cm, NT$) |
| 可解讀性 | 較抽象;難以與原始資料直接對應 | 直觀;能直接對應原始資料 |
| 對離群值的敏感度 | 高(因為平方運算) | 中等(開平方根減緩了影響) |
| 主要用途 | 統計推論、變異數分析、投資組合理論 | 敘述統計、數據報告、經驗法則 |
母體與樣本公式
在計算這些指標時,你必須區分母體與樣本。母體包含特定群體中的所有成員,而樣本僅是母體的一個子集。在樣本公式中使用 (n - 1) 作為分母——這稱為貝氏校正——能修正從樣本推估母體變異數時的先天偏差,確保估計式是不偏的。
樣本變異數
避開 n 與 n-1 的陷阱
何時該使用變異數或標準差?
選擇使用變異數還是標準差,完全取決於你的分析目標。如果你需要向非技術背景的受眾傳達資料的離散程度,標準差絕對是首選,因為它與資料的原始單位一致。然而,如果你正在進行統計的中間運算——例如在變異數分析中計算 F 統計量、評估現代投資組合理論的風險,或進行假設檢定——變異數在數學處理上會更加方便。
使用變異數的時機...
使用標準差的時機...
用 Python 計算標準差與變異數
Python 的 `statistics` 模組提供了計算變異數與標準差的內建函式。在使用這些函式時,根據你的資料是母體還是樣本來選擇正確的方法,是至關重要的步驟。
import statistics
# 範例資料集
data = [14, 18, 12, 15, 11]
# 計算樣本變異數與標準差
sample_var = statistics.variance(data)
sample_sd = statistics.stdev(data)
# 計算母體變異數與標準差
pop_var = statistics.pvariance(data)
pop_sd = statistics.pstdev(data)
print(f"Sample Variance: {sample_var:.2f}")
print(f"Sample SD: {sample_sd:.2f}")
print(f"Population Variance: {pop_var:.2f}")
print(f"Population SD: {pop_sd:.2f}")常見問題
- 變異數可以是負數嗎?不行,因為離差平方和 (xᵢ - μ)² 永遠大於或等於零,所以變異數絕不可能是負數。
- 為什麼在報告中,標準差比變異數更常被使用?因為標準差與平均數的單位相同,這使得它更容易與原始資料放在一起解讀與理解。
- 變異數和均方誤差(MSE)一樣嗎?兩者很類似,但 MSE 衡量的是估計值與實際值之間的平方誤差平均,而變異數衡量的是圍繞平均值的離散程度。如果估計式剛好就是平均數,那麼 MSE 就等於變異數。
Further Reading
Sources
References and further authoritative reading used in preparing this article.