分散とは?
分散は、数値の集合が平均値からどれくらい散らばっているかを測る指標です。平均からの偏差の2乗の平均であり、標準偏差の基礎となる概念です。
各バーは平均からの2乗偏差を示しています。分散はこれらのバーの平均です。
分散の公式
母集団分散
σ² = Σ(xᵢ - μ)² / N
標本分散
s² = Σ(xᵢ - x̄)² / (n-1)
1
平均を計算する
すべての値を足して、データの個数で割ります。
2
各偏差を求める
各データ点から平均を引きます。
3
各偏差を2乗する
負の値を消し、大きな偏差を強調します。
4
2乗偏差の平均を求める
N(母集団)またはn-1(標本)で割ります。
なぜ偏差を2乗するのか?
3つの重要な理由
1. 負の値を消す: 2乗しないと、正と負の偏差が打ち消し合い、合計がゼロになってしまいます。
2. 外れ値を強調する: 2乗することで、平均から遠い値ほど大きな影響を持ちます。
3. 数学的な性質: 分散は統計的推測に有用な代数的性質を持っています。
例:なぜ絶対値ではだめなのか?
データ: 2, 4, 4, 4, 5, 5, 7, 9(平均 = 5)
平均絶対偏差:
|2-5| + |4-5| + ... = 14
MAD = 14/8 = 1.75
分散(2乗):
(2-5)² + (4-5)² + ... = 32
Var = 32/8 = 4
分散と標準偏差の関係
その関係
Standard Deviation = √Variance → σ = √σ²
分散 (σ²)
- 単位は2乗(例:cm²、¥²)
- 直接的な解釈がしにくい
- 数学的操作に便利
- 独立な変数に対して加法性がある
標準偏差 (σ)
- 元のデータと同じ単位
- 解釈しやすい
- 結果の伝達に適している
- Zスコアや信頼区間で使用
分散の応用
標準偏差の方がよく報告されますが、分散には特有の用途があります。
- 分散分析(ANOVA):グループ間の平均を比較する
- ポートフォリオ理論:リターンの分散を最適化に使用する
- 回帰分析:R²は説明された分散を総分散で割ったもの
- 主成分分析(PCA):説明された分散を最大化する