什么是方差?
方差(总体方差记为 σ²,样本方差记为 s²)是衡量数据集中数值之间离散程度的统计指标。它表示各数据与均值(μ)之间离差平方的平均数。通过对离差进行平方,方差避免了正负离差相互抵消,从而真实地反映了数据的离散程度。然而,由于离差经过了平方运算,方差的单位变成了原始数据单位的平方,这使得我们在实际解释时显得有些抽象。
总体方差
度量单位
什么是标准差?
标准差(总体标准差记为 σ,样本标准差记为 s)是方差的算术平方根。它衡量的是各个数据点偏离均值的平均幅度。由于标准差是对方差开平方的结果,其单位与原始数据保持一致,因此在实际应用中更加直观、易于解释。它是统计学中最常用的离散程度度量指标。
总体标准差
标准差与方差:核心区别
虽然这两个指标都量化了数据点围绕均值的离散程度,但它们的数学关系和实际用途却大相径庭。最根本的区别在于单位和可解释性。标准差是方差的平方根,将离散度度量还原到了数据的原始单位。而方差作为一个平方值,会不成比例地放大异常值的影响,使其对极端值极为敏感。
| 特征 | 方差 (σ² / s²) | 标准差 (σ / s) |
|---|---|---|
| 数学基础 | 离差平方的平均数 | 方差的算术平方根 |
| 单位 | 平方单位(如 cm²、¥²) | 原始单位(如 cm、¥) |
| 可解释性 | 抽象;难以与原始数据直接关联 | 直观;与原始数据直接对应 |
| 对异常值的敏感度 | 高(因为平方运算) | 中等(开平方削弱了影响) |
| 主要应用场景 | 统计推断、方差分析(ANOVA)、投资组合理论 | 描述性统计、数据报告、经验法则 |
总体与样本公式
在计算这些指标时,必须区分总体和样本。总体包含指定群体的所有成员,而样本则是该总体的一个子集。使用分母为 (n - 1) 的样本公式——即贝塞尔校正——可以修正从样本估计总体方差时产生的固有偏差,确保估计量是无偏的。
样本方差
避开 n 与 n-1 的陷阱
何时使用方差与标准差
选择方差还是标准差,完全取决于你的分析目的。如果你需要向非技术背景的人员传达数据的离散情况,标准差无疑是首选,因为它与数据的自然单位一致。然而,如果你正在进行中间统计计算——例如在方差分析(ANOVA)中计算F统计量、在现代投资组合理论中评估风险,或进行假设检验——方差在数学处理上更为方便。
使用方差的情况...
使用标准差的情况...
在Python中计算标准差与方差
Python 的 `statistics` 模块提供了计算方差和标准差的内置函数。在使用这些函数时,根据你的数据代表总体还是样本,选择正确的方法至关重要。
import statistics
# 样本数据集
data = [14, 18, 12, 15, 11]
# 计算样本方差和标准差
sample_var = statistics.variance(data)
sample_sd = statistics.stdev(data)
# 计算总体方差和标准差
pop_var = statistics.pvariance(data)
pop_sd = statistics.pstdev(data)
print(f"Sample Variance: {sample_var:.2f}")
print(f"Sample SD: {sample_sd:.2f}")
print(f"Population Variance: {pop_var:.2f}")
print(f"Population SD: {pop_sd:.2f}")常见问题
- 方差可以是负数吗?不可以。因为离差平方和 (xᵢ - μ)² 始终为零或正值,所以方差永远不可能为负数。
- 为什么在报告时更倾向于使用标准差而不是方差?因为标准差与均值的单位相同,这使得在结合原始数据进行解读时更加容易和直观。
- 方差和均方误差(MSE)是一回事吗?它们类似,但MSE通常衡量的是估计值与真实值之间差异的平方的平均值,而方差衡量的是围绕均值的离散程度。当估计量刚好是均值时,MSE等于方差。
Further Reading
Sources
References and further authoritative reading used in preparing this article.