什么是方差?
方差衡量的是一组数据距离其均值的分散程度。它等于偏差平方的平均值,是标准差的计算基础。
每个柱形表示与均值的偏差平方。方差 = 这些柱形的平均值。
方差公式
总体方差
σ² = Σ(xᵢ - μ)² / N
样本方差
s² = Σ(xᵢ - x̄)² / (n-1)
1
计算均值
将所有值相加后除以数据个数。
2
求出每个偏差
用每个数据点减去均值。
3
对每个偏差求平方
这样做可以消除负值,并放大较大的偏差。
4
求偏差平方的平均值
除以 N(总体)或 n-1(样本)。
为什么要对偏差求平方?
三个关键原因
1. 消除负值:如果不平方,正偏差和负偏差会相互抵消,总和为零。
2. 放大极端值:平方使远离均值的数据获得更大的权重。
3. 数学性质:方差具有对统计推断有用的代数性质。
示例:为什么不直接用绝对值?
数据集:2, 4, 4, 4, 5, 5, 7, 9(均值 = 5)
平均绝对偏差:
|2-5| + |4-5| + ... = 14
MAD = 14/8 = 1.75
方差(平方):
(2-5)² + (4-5)² + ... = 32
Var = 32/8 = 4
方差与标准差的关系
二者的关系
Standard Deviation = √Variance → σ = √σ²
方差 (σ²)
- 单位是平方单位(如 cm²、$²)
- 直接解读较困难
- 便于进行数学运算
- 独立变量的方差可直接相加
标准差 (σ)
- 与原始数据单位相同
- 更容易解读
- 更适合沟通交流
- 用于 Z 分数和置信区间
方差的应用
虽然标准差更常被引用,但方差在以下领域有独特的用途:
- 方差分析 (ANOVA):通过比较方差来检验多组之间的均值差异
- 投资组合理论:收益的方差用于投资组合优化
- 回归分析:R² 是已解释方差除以总方差
- 主成分分析 (PCA):PCA 的目标是最大化所解释的方差