什么是正态分布?
正态分布,也称高斯分布或“钟形曲线”,是统计学中最重要的概率分布。它描述了数据值如何围绕一个中心均值分布。
The Classic Bell Curve
正态分布仅由两个参数完全确定:决定中心位置的均值 (μ) 和决定分散程度的标准差 (σ)。
核心特征
对称性
分布完全关于均值对称。左右两半互为镜像。
均值 = 中位数 = 众数
在正态分布中,三个集中趋势指标相等,均位于中心。
渐近性
尾部无限延伸但永远不会触及 x 轴。极端值是可能出现的,但越来越少见。
总面积 = 1
曲线下的总面积等于 1(即 100%),代表所有可能的结果。
标准差如何影响形状
标准差控制正态分布的“宽窄”。较小的 σ 产生高而窄的曲线;较大的 σ 产生矮而宽的曲线。
Visual Comparison
Low SD (σ = 0.5)
Data clustered tightly around the mean
High SD (σ = 2)
Data spread widely from the mean
Z 分数与标准化
Z 分数表示某个数值距离均值有多少个标准差。这使你可以比较来自不同正态分布的数值。
Z 分数公式
z = (x - μ) / σ
| Z 分数 | 含义 | 百分位 |
|---|---|---|
| -2 | 低于均值 2 个标准差 | ≈2.3% |
| -1 | 低于均值 1 个标准差 | ≈15.9% |
| 0 | 处于均值位置 | 50% |
| +1 | 高于均值 1 个标准差 | ≈84.1% |
| +2 | 高于均值 2 个标准差 | ≈97.7% |
实际应用案例
许多自然现象服从正态分布:
- 人类身高:大多数人的身高接近平均值,极高或极矮的人较少
- 智商分数:设计为服从正态分布,均值 100,标准差 15
- 测量误差:科学测量中的随机误差
- 血压:人群血压读数的分布
数据不服从正态分布时
并非所有数据都服从正态分布。需要注意以下情况:
非正态分布
- 收入数据:通常呈右偏(高收入者形成长尾)
- 等待时间:通常服从指数分布
- 计数数据:可能服从泊松分布
- 比例数据:服从二项分布