什麼是常態分配?
常態分配,也稱為高斯分配或“鐘形曲線”,是統計學中最重要的機率分配。它描述了資料值如何圍繞中心平均值分佈。
The Classic Bell Curve
常態分配僅由兩個參數完全定義:平均數 (μ) 決定中心位置,標準差 (σ) 決定分散程度。
重要特性
對稱性
分配以平均數為中心完全對稱,左右兩半互為鏡像。
平均數 = 中位數 = 眾數
在常態分配中,三個集中趨勢的量度相等,都位於中心位置。
漸近性
尾部向兩端無限延伸但永遠不會碰到 x 軸。極端值雖然可能出現,但機率越來越小。
總面積 = 1
曲線下方的總面積等於 1(即 100%),代表所有可能的結果。
標準差如何影響形狀
標準差控制常態分配的“寬窄程度”。較小的 σ 會產生高窄的曲線;較大的 σ 則產生矮寬的曲線。
Visual Comparison
Low SD (σ = 0.5)
Data clustered tightly around the mean
High SD (σ = 2)
Data spread widely from the mean
Z 分數與標準化
Z 分數告訴你一個數值距離平均數有幾個標準差。這讓你可以比較來自不同常態分配的數值。
Z 分數公式
z = (x - μ) / σ
| Z 分數 | 意義 | 百分位數 |
|---|---|---|
| -2 | 低於平均數 2 個標準差 | ~2.3% |
| -1 | 低於平均數 1 個標準差 | ~15.9% |
| 0 | 位於平均數 | 50% |
| +1 | 高於平均數 1 個標準差 | ~84.1% |
| +2 | 高於平均數 2 個標準差 | ~97.7% |
實際範例
許多自然現象都遵循常態分配:
- 人類身高:大多數人的身高接近平均值,極高或極矮的人很少
- 智商分數:設計為遵循常態分配,平均值 100,標準差 15
- 測量誤差:科學測量中的隨機誤差
- 血壓:一般人口的血壓讀數
當資料不是常態分配時
並非所有資料都遵循常態分配。對以下類型的資料要特別謹慎:
非常態分配
- 收入資料: 通常呈右偏(高收入者形成長尾)
- 等待時間: 通常呈指數分配
- 計數資料: 可能遵循卜瓦松分配
- 比例資料: 遵循二項分配