超越均值与标准差
均值和标准差分别描述了数据的中心和离散程度,而偏度和峰度则描述了分布的形状——不对称性和尾部厚度。
在统计学中,我们用“矩”来描述分布——通过数学概括来捕捉形状的不同方面:
- 第一矩:均值(集中趋势)
- 第二矩:方差/标准差(离散程度)
- 第三矩:偏度(不对称性)
- 第四矩:峰度(尾部厚度)
两个分布可以有完全相同的均值和标准差,但看起来截然不同。偏度和峰度捕捉的正是这些差异,提供对数据分布更完整的认识。
偏度:衡量不对称性
偏度衡量分布的不对称程度。正偏度意味着右尾较长(如收入分布),负偏度意味着左尾较长。
样本偏度
- 偏度 = 0:对称分布(正态分布、均匀分布)
- 偏度 > 0:右偏——均值大于中位数(收入、房价)
- 偏度 < 0:左偏——中位数大于均值(退休年龄、有上限的考试成绩)
常见的右偏数据
解读指南:
- |偏度| < 0.5:近似对称
- 0.5 ≤ |偏度| < 1:中度偏态
- |偏度| ≥ 1:高度偏态
峰度:尾部厚度
峰度衡量的是与正态分布相比,分布尾部的厚度。高峰度意味着更多的极端值(厚尾),低峰度意味着更少的极端值。
一个常见误解是峰度衡量的是“尖峰程度”。虽然有关联,但峰度本质上衡量的是尾部。高峰度分布在尾部和峰值处有更多的概率质量,但在“肩部”区域较少。
超额峰度
- 中峰态 (k ≈ 0):类似正态分布的尾部(比较基准)
- 尖峰态 (k > 0):厚尾,极端值比正态分布更多(股票收益、地震)
- 平峰态 (k < 0):薄尾,极端值比正态分布更少(均匀分布、有界数据)
金融中的厚尾
实际应用
风险管理:高峰度意味着极端结果出现得更频繁。假设正态分布的 VaR 和其他风险指标在峰度较高时可能严重低估真实风险。
质量控制:制造数据如果具有高峰度,说明即使平均表现达标,偶尔也会出现严重偏离目标的情况。这种模式可能暗示过程不稳定,需要调查。
数据变换:高度偏态的数据可以在分析前进行变换(对数、平方根)。目标通常是使数据近似正态分布,以满足那些假设正态性的统计检验。
统计检验:许多检验假设数据服从正态分布。显著的偏度或峰度可能说明该假设被违反,建议使用非参数方法或稳健方法。
解读指南
正态性检验:Jarque-Bera 检验结合偏度和峰度来检验正态性。当任一指标显著偏离零时,就拒绝正态性假设。
样本量的影响:小样本产生的偏度和峰度估计不可靠。n < 50 时,这些统计量有很大的抽样变异性。n < 20 时,它们基本没有参考意义。
稳健性:偏度和峰度都对异常值非常敏感。一个极端值就能大幅改变这些统计量,因此在查看数值结果的同时,务必对数据进行可视化。