標準差是什麼?
標準差是一種統計測度,用來量化一組數據值的變異或離散程度。標準差較低,表示數據點通常接近該組數據的平均數(期望值);標準差較高,則表示數據點散佈在較廣的範圍內。母體標準差以希臘字母 σ (sigma) 表示,樣本標準差則以 s 表示,這是描述性統計學中最基本的概念之一。
核心定義
母體與樣本標準差
在計算標準差之前,必須先確認你的數據代表的是整個母體還是母體的樣本。母體包含指定群體的所有成員,而樣本則是該群體中具有代表性的子集。計算樣本標準差時需要進行數學調整——使用 n - 1(自由度,或稱 df)代替 N——以確保計算結果是母體變異數的不偏估計式。
母體標準差
樣本標準差
標準差公式解析
標準差的公式是先計算變異數,然後再開平方根。開平方根這個步驟至關重要,因為它能將離散程度的測度轉換回數據的原始單位。公式中的關鍵組成部分包含 xᵢ(每個數據值)、μ 或 x̄(母體或樣本平均數),以及 N 或 n(數據的總個數)。
母體標準差
樣本標準差
逐步計算範例
假設我們有一組小考成績的數據:[4, 8, 6, 5, 3, 2, 8, 9, 2, 5],讓我們來計算它的樣本標準差。按照公式逐步計算,可以清楚看出變異數在最終開平方根之前是如何累積的。
計算平均數 (x̄)
減去平均數並平方
加總平方差
除以 n - 1(自由度)
開平方根
使用 Python 計算標準差
手動計算標準差不僅容易出錯,尤其在處理大型數據集時更是如此。實務上,統計學家與資料科學家會使用 Python 等程式語言,透過內建函式庫來瞬間完成計算。
import statistics
data = [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]
# 計算樣本標準差(預設)
sample_sd = statistics.stdev(data)
print(f"Sample SD: {sample_sd:.2f}")
# 計算母體標準差
pop_sd = statistics.pstdev(data)
print(f"Population SD: {pop_sd:.2f}")經驗法則與標準差
當數據呈常態分配(鐘型曲線)時,標準差就變得極具預測性。經驗法則(又稱 68-95-99.7 法則)指出,幾乎所有的數據都會落在平均數的三個標準差範圍內。這讓分析師能夠快速找出離群值,並理解特定觀測值發生的機率。
| 與平均數的區間 | 數據百分比 | 應用場景 |
|---|---|---|
| ±1σ | 68.27% | 辨識常見的日常數值 |
| ±2σ | 95.45% | 設定信賴區間 |
| ±3σ | 99.73% | 偵測極端離群值 |
標準差與變異數的比較
變異數與標準差是密切相關的離散程度測度。變異數(σ² 或 s²)是各數據點與平均數之間差異平方的平均值,而標準差則是變異數的平方根。由於變異數的單位是原始單位的平方(例如:新台幣的平方、平方公分),在原始數據的情境下往往難以直觀解讀。標準差則透過將測度轉換回原始單位,解決了這個問題。
數據報告建議
常見的統計陷阱
雖然標準差是非常實用的工具,但卻經常遭到誤用。公式用錯或誤解數值的涵義,都可能導致數據分析出現瑕疵,進而得出錯誤的結論。
- 將母體公式誤用於樣本:計算樣本時忘記使用 n - 1,會人為壓低算出的離散程度,進而低估了真實的母體變異數。
- 將標準差套用於非常態分配:經驗法則僅適用於常態分配。對於高度偏態的數據,標準差可能無法準確反映其離散程度。
- 將標準差與標準誤混淆:標準誤衡量的是樣本平均數估計的精確度,而標準差衡量的則是原始數據本身的離散程度。
當心離群值
Further Reading
Sources
References and further authoritative reading used in preparing this article.