Σ
SDCalc
高级理论·15 min

偏度与峰度:超越标准差

了解偏度和峰度——描述分布形态的第三和第四矩,它们揭示了均值和标准差无法体现的分布特征。

超越均值与标准差

均值和标准差分别描述了数据的中心和离散程度,而偏度峰度则描述了分布的形状——不对称性和尾部厚度。

在统计学中,我们用“矩”来描述分布——通过数学概括来捕捉形状的不同方面:

  • 第一矩:均值(集中趋势)
  • 第二矩:方差/标准差(离散程度)
  • 第三矩:偏度(不对称性)
  • 第四矩:峰度(尾部厚度)

两个分布可以有完全相同的均值和标准差,但看起来截然不同。偏度和峰度捕捉的正是这些差异,提供对数据分布更完整的认识。

偏度:衡量不对称性

偏度衡量分布的不对称程度。正偏度意味着右尾较长(如收入分布),负偏度意味着左尾较长。

样本偏度

g₁ = [n/((n-1)(n-2))] × Σ[(xᵢ - x̄)/s]³
  • 偏度 = 0:对称分布(正态分布、均匀分布)
  • 偏度 > 0:右偏——均值大于中位数(收入、房价)
  • 偏度 < 0:左偏——中位数大于均值(退休年龄、有上限的考试成绩)

常见的右偏数据

许多现实世界的现象呈右偏态:收入、财富、公司规模、城市人口、保险索赔和等待时间。在这些情况下,均值被极端值拉高,中位数才是“典型”水平的更好衡量指标。

解读指南:

  • |偏度| < 0.5:近似对称
  • 0.5 ≤ |偏度| < 1:中度偏态
  • |偏度| ≥ 1:高度偏态

峰度:尾部厚度

峰度衡量的是与正态分布相比,分布尾部的厚度。高峰度意味着更多的极端值(厚尾),低峰度意味着更少的极端值。

一个常见误解是峰度衡量的是“尖峰程度”。虽然有关联,但峰度本质上衡量的是尾部。高峰度分布在尾部和峰值处有更多的概率质量,但在“肩部”区域较少。

超额峰度

g₂ = [n(n+1)/((n-1)(n-2)(n-3))] × Σ[(xᵢ - x̄)/s]⁴ - 3(n-1)²/((n-2)(n-3))
  • 中峰态 (k ≈ 0):类似正态分布的尾部(比较基准)
  • 尖峰态 (k > 0):厚尾,极端值比正态分布更多(股票收益、地震)
  • 平峰态 (k < 0):薄尾,极端值比正态分布更少(均匀分布、有界数据)

金融中的厚尾

金融收益以高峰度(“厚尾”)著称。基于正态分布假设应该百年一遇的事件实际上发生得频繁得多。忽视峰度会导致风险被严重低估——许多金融危机的教训正是如此。

实际应用

风险管理:高峰度意味着极端结果出现得更频繁。假设正态分布的 VaR 和其他风险指标在峰度较高时可能严重低估真实风险。

质量控制:制造数据如果具有高峰度,说明即使平均表现达标,偶尔也会出现严重偏离目标的情况。这种模式可能暗示过程不稳定,需要调查。

数据变换:高度偏态的数据可以在分析前进行变换(对数、平方根)。目标通常是使数据近似正态分布,以满足那些假设正态性的统计检验。

统计检验:许多检验假设数据服从正态分布。显著的偏度或峰度可能说明该假设被违反,建议使用非参数方法或稳健方法。

解读指南

正态性检验:Jarque-Bera 检验结合偏度和峰度来检验正态性。当任一指标显著偏离零时,就拒绝正态性假设。

样本量的影响:小样本产生的偏度和峰度估计不可靠。n < 50 时,这些统计量有很大的抽样变异性。n < 20 时,它们基本没有参考意义。

稳健性:偏度和峰度都对异常值非常敏感。一个极端值就能大幅改变这些统计量,因此在查看数值结果的同时,务必对数据进行可视化。