Σ
SDCalc
進階理論基礎·15 min

偏態與峰度:超越標準差的分配描述

學習偏態與峰度——描述分配形狀的第三和第四動差,超越平均數和標準差的範疇。

超越平均數與標準差

平均數和標準差分別描述了集中趨勢和離散程度,而偏態峰度則描述分配的形狀——不對稱性和尾部的厚重程度。

在統計學中,我們使用“動差”來描述分配——它們是捕捉形狀不同面向的數學摘要:

  • 第一動差:平均數(集中趨勢)
  • 第二動差:變異數/標準差(離散程度)
  • 第三動差:偏態(不對稱性)
  • 第四動差:峰度(尾部厚重程度)

兩個分配可以有完全相同的平均數和標準差,但看起來截然不同。偏態和峰度捕捉了這些差異,為你的資料分配提供更完整的描述。

偏態:衡量不對稱性

偏態衡量的是分配的不對稱程度。正偏態表示右尾較長(如收入分配),負偏態表示左尾較長。

樣本偏態

g₁ = [n/((n-1)(n-2))] × Σ[(xᵢ - x̄)/s]³
  • 偏態 = 0:對稱分配(常態分配、均勻分配)
  • 偏態 > 0:右偏——平均數大於中位數(收入、房價)
  • 偏態 < 0:左偏——中位數大於平均數(退休年齡、有上限的考試成績)

常見的右偏資料

許多現實現象都呈右偏:收入、財富、公司規模、城市人口、保險理賠和等待時間。在這些情況下,平均數被極端值拉高,中位數通常是更好的“典型值”指標。

解讀準則:

  • |偏態| < 0.5:大致對稱
  • 0.5 ≤ |偏態| < 1:中度偏態
  • |偏態| ≥ 1:高度偏態

峰度:尾部的厚重程度

峰度衡量的是與常態分配相比,尾部有多厚或多薄。高峰度意味著更多極端值(肥尾),低峰度意味著較少極端值。

一個常見的誤解是峰度衡量“尖銳程度”。雖然相關,但峰度本質上是關於尾部的。高峰度的分配在尾部和峰頂有更多的機率質量,但在“肩部”較少。

超額峰度

g₂ = [n(n+1)/((n-1)(n-2)(n-3))] × Σ[(xᵢ - x̄)/s]⁴ - 3(n-1)²/((n-2)(n-3))
  • 常態峰度 (k ≈ 0):類似常態分配的尾部(比較基準)
  • 高峰度 (k > 0):肥尾,比常態分配有更多極端值(股票報酬、地震)
  • 低峰度 (k < 0):瘦尾,比常態分配更少極端值(均勻分配、有界資料)

金融中的肥尾

金融報酬率以高峰度(“肥尾”)著稱。基於常態分配假設應該百年一遇的事件,實際上發生的頻率高得多。忽略峰度會導致低估風險——這是許多金融危機帶來的教訓。

實務應用

風險管理: 高峰度意味著極端結果出現的頻率更高。假設常態分配的風險值 (VaR) 和其他風險衡量指標,在峰度高時可能嚴重低估真實風險。

品質管控: 具有高峰度的製造資料表示偶爾會出現偏離目標的極端情況,即使整體平均表現可以接受。這種模式可能意味著製程不穩定,需要深入調查。

資料轉換: 高度偏態的資料可能需要在分析前進行轉換(如取對數、平方根)。目標通常是達到近似常態,以滿足需要此假設的統計檢定。

統計檢定: 許多檢定假設常態分配。顯著的偏態或峰度可能表示這個假設被違反,建議使用無母數方法或穩健方法。

解讀指南

常態性檢定: Jarque-Bera 檢定結合偏態和峰度來檢驗常態性。當任一指標顯著偏離零時,就會拒絕常態假設。

樣本數的考量: 小樣本會產生不可靠的偏態和峰度估計。當 n < 50 時,這些統計量有很高的抽樣變異性。當 n < 20 時,它們基本上沒有意義。

穩健性: 偏態和峰度都對離群值非常敏感。一個極端值就能劇烈影響這些統計量,因此務必在數值摘要之外同時將資料視覺化。