什么是置信区间?
置信区间(CI)是一个可能包含真实总体参数的数值范围。它不同于单一的点估计,而是通过给出一个范围来承认不确定性的存在。
“我们有 95% 的把握认为真实均值在 48.2 到 51.8 之间”
95% CI: [48.2, 51.8]
计算公式
总体均值的置信区间公式为:
置信区间公式
CI = x̄ ± z* × (σ / √n)
- x̄ = 样本均值
- z* = 临界值(95% 置信区间为 1.96)
- σ = 标准差
- n = 样本量
- σ/√n = 标准误差
| 置信水平 | z* 值 |
|---|---|
| 90% | 1.645 |
| 95% | 1.960 |
| 99% | 2.576 |
正确解读方法
常见误解
95% 置信区间并不意味着“真实均值有 95% 的概率在这个区间内”。真实均值要么在区间内,要么不在——它是一个固定值。
正确的解读方式
“如果我们重复多次这样的抽样过程,那么 95% 计算出的区间会包含真实的总体均值。”
计算示例
示例:客户满意度
你调查了 100 名客户,得到满意度平均分为 7.5,标准差为 1.5。计算 95% 置信区间。
1
计算标准误差
SE = 1.5 / √100 = 0.15
2
计算误差范围
ME = 1.96 × 0.15 = 0.294
3
构建置信区间
CI = 7.5 ± 0.294 = [7.21, 7.79]
解读:我们有 95% 的把握认为,真实的客户满意度均值在 7.21 到 7.79 之间。
影响置信区间宽度的因素
样本量 (n)
n 越大 = 区间越窄
更多数据 = 更高精度
标准差 (σ)
σ 越大 = 区间越宽
变异性越大 = 确定性越低
置信水平
置信水平越高 = 区间越宽
99% 置信区间比 95% 置信区间更宽