超越平均數與標準差
平均數和標準差分別描述了集中趨勢和離散程度,而偏態和峰度則描述分配的形狀——不對稱性和尾部的厚重程度。
在統計學中,我們使用“動差”來描述分配——它們是捕捉形狀不同面向的數學摘要:
- 第一動差:平均數(集中趨勢)
- 第二動差:變異數/標準差(離散程度)
- 第三動差:偏態(不對稱性)
- 第四動差:峰度(尾部厚重程度)
兩個分配可以有完全相同的平均數和標準差,但看起來截然不同。偏態和峰度捕捉了這些差異,為你的資料分配提供更完整的描述。
偏態:衡量不對稱性
偏態衡量的是分配的不對稱程度。正偏態表示右尾較長(如收入分配),負偏態表示左尾較長。
樣本偏態
- 偏態 = 0:對稱分配(常態分配、均勻分配)
- 偏態 > 0:右偏——平均數大於中位數(收入、房價)
- 偏態 < 0:左偏——中位數大於平均數(退休年齡、有上限的考試成績)
常見的右偏資料
解讀準則:
- |偏態| < 0.5:大致對稱
- 0.5 ≤ |偏態| < 1:中度偏態
- |偏態| ≥ 1:高度偏態
峰度:尾部的厚重程度
峰度衡量的是與常態分配相比,尾部有多厚或多薄。高峰度意味著更多極端值(肥尾),低峰度意味著較少極端值。
一個常見的誤解是峰度衡量“尖銳程度”。雖然相關,但峰度本質上是關於尾部的。高峰度的分配在尾部和峰頂有更多的機率質量,但在“肩部”較少。
超額峰度
- 常態峰度 (k ≈ 0):類似常態分配的尾部(比較基準)
- 高峰度 (k > 0):肥尾,比常態分配有更多極端值(股票報酬、地震)
- 低峰度 (k < 0):瘦尾,比常態分配更少極端值(均勻分配、有界資料)
金融中的肥尾
實務應用
風險管理: 高峰度意味著極端結果出現的頻率更高。假設常態分配的風險值 (VaR) 和其他風險衡量指標,在峰度高時可能嚴重低估真實風險。
品質管控: 具有高峰度的製造資料表示偶爾會出現偏離目標的極端情況,即使整體平均表現可以接受。這種模式可能意味著製程不穩定,需要深入調查。
資料轉換: 高度偏態的資料可能需要在分析前進行轉換(如取對數、平方根)。目標通常是達到近似常態,以滿足需要此假設的統計檢定。
統計檢定: 許多檢定假設常態分配。顯著的偏態或峰度可能表示這個假設被違反,建議使用無母數方法或穩健方法。
解讀指南
常態性檢定: Jarque-Bera 檢定結合偏態和峰度來檢驗常態性。當任一指標顯著偏離零時,就會拒絕常態假設。
樣本數的考量: 小樣本會產生不可靠的偏態和峰度估計。當 n < 50 時,這些統計量有很高的抽樣變異性。當 n < 20 時,它們基本上沒有意義。
穩健性: 偏態和峰度都對離群值非常敏感。一個極端值就能劇烈影響這些統計量,因此務必在數值摘要之外同時將資料視覺化。