兩種衡量離散程度的方法
全距和標準差都衡量資料的離散程度,但它們捕捉的是分散性的不同面向。了解何時使用哪一種,對於正確的資料分析至關重要。
全距告訴你極端值——最大值和最小值之間的距離。標準差告訴你圍繞平均值的典型分散程度。兩者都很有用,但適用於不同的目的。
快速決策指南
當你關心極端值時使用全距(品質管控限值、溫度變化)。當你關心典型變異性且需要統計嚴謹性時使用標準差。
定義與公式
全距
全距 = 最大值 - 最小值
最簡單的離散程度衡量指標。無論資料集多大,只考慮兩個值。
標準差
s = √[Σ(xᵢ - x̄)² / (n-1)]
使用每一個資料點來衡量與平均數之間的平均距離。
正面對決
全距的優缺點
優點:
- 計算極其簡單——只需相減
- 容易理解和溝通
- 直接顯示資料的跨度
- 適合快速品質檢查
缺點:
- 忽略所有中間值
- 極度敏感於離群值
- 隨樣本數增加而預期增大
- 統計效率低
標準差的優缺點
優點:
- 使用所有資料點
- 統計效率高且穩健
- 樣本數增加時保持穩定
- 是進階統計的基礎
缺點:
- 手動計算較複雜
- 對非統計專業人士較不直觀
- 可能隱藏重要的極端值
- 仍受離群值影響(可改用 MAD)
何時使用哪一種
使用全距的時機:
- 需要快速、粗略的離散程度估計
- 極端值才是重要的(例如暖通空調設計的溫度範圍)
- 已知資料乾淨無離群值
- 向不熟悉統計的受眾溝通
- 樣本數小且固定(所有比較的樣本數相同)
使用標準差的時機:
- 進行統計分析或假設檢定
- 比較不同樣本數的變異性
- 計算信賴區間或 p 值
- 評估典型變異而非極端值
- 資料可能含有不應主導結果的離群值
實務範例
範例:每日溫度
資料:72°F, 75°F, 74°F, 73°F, 76°F, 71°F, 74°F
全距: 76 - 71 = 5°F(溫度擺幅)
標準差: 1.72°F(日與日之間的典型變化)
兩者在這裡都有用——全距用於暖通空調容量設計,標準差用於舒適度一致性。
範例:含離群值的考試成績
資料:85, 88, 87, 86, 89, 42(一個學生沒準備)
全距: 89 - 42 = 47 分(被離群值主導!)
標準差: 17.4 分(仍受影響但程度較小)
全距在這裡會產生誤導。建議使用標準差或移除離群值。
進階考量
全距與標準差的關係: 對於常態分配的資料,在一般的樣本大小下,全距 ≈ 4-6 × 標準差。這可以用來在兩者之間做粗略的轉換。
四分位距 (IQR): 一個折衷方案,使用 Q3 - Q1 而非最大值 - 最小值。它比全距更穩健,又比標準差更簡單。
最佳做法
適當時同時報告兩個量度。“溫度全距為 15°F(標準差 = 4.2°F)”讓讀者同時獲得極端值和典型變異的完整資訊。