Σ
SDCalc
中級Fundamentals·9 min

標準偏差と分散の違いを徹底解説!計算式や使い分け、データ分析への影響をわかりやすくまとめました

統計学における「標準偏差」と「分散」の決定的な違いを正しく理解することは、データ分析において不可欠です。本記事では、両者の定義や計算式、使い分けのポイントをわかりやすく解説します。それぞれの指標がデータのばらつきをどう評価するのか、実務での活用シーンとあわせて詳しく見ていきましょう。

By Standard Deviation Calculator Team · Data Science Team·Published

分散とは何か?

分散(母集団は σ²、標本は s² と表記)は、データセット内の数値のばらつきを測る統計指標です。平均(μ)からの偏差を2乗した値の平均を表します。偏差を2乗することで、正と負の偏差が相殺されるのを防ぎ、真のばらつきを測定できます。ただし、偏差が2乗されているため、分散の単位は元のデータの単位の2乗となり、そのまま直感的に解釈するのは少し難しくなります。

母分散

σ² = Σ(xᵢ - μ)² / N

測定単位について

例えば、データが身長(cm)を表している場合、分散の単位は「cm²(平方センチメートル)」となります。この2乗された単位は、実務の現場で分散をそのまま解釈するのが難しい主な理由の1つです。

標準偏差とは何か?

標準偏差(母集団は σ、標本は s と表記)は、分散の平方根です。各データポイントが平均からどれだけズレているかの平均的な大きさを表します。分散の平方根を取ることで得られるため、単位が元のデータと同じになり、実務での解釈が格段に直感的になります。統計学におけるばらつきの指標として最も広く用いられています。

母標準偏差

σ = √(Σ(xᵢ - μ)² / N)

標準偏差と分散の決定的な違い

どちらの指標もデータポイントの平均からのばらつきを定量化しますが、数学的な関係性と実用性には大きな違いがあります。最も根本的な違いは「単位」と「解釈のしやすさ」にあります。標準偏差は分散の平方根であるため、ばらつきの指標を元のデータと同じ単位に戻すことができます。一方、分散は2乗された値であるため、外れ値の影響を非対称に受けやすく、極端な値に対して非常に敏感に反応してしまいます。

特徴分散 (σ² / s²)標準偏差 (σ / s)
数学的基盤偏差平方の平均分散の平方根
単位2乗単位(例:cm²、円²)元の単位(例:cm、円)
解釈のしやすさ抽象的;データと結び付けにくい直感的;データに直接対応する
外れ値への敏感さ高い(2乗するため)中程度(平方根で緩和される)
主な用途統計的推測、分散分析、ポートフォリオ理論記述統計、レポート、経験則

母集団と標本の計算式

これらの指標を計算する際、母集団標本を明確に区別する必要があります。母集団とは特定のグループの全構成員を指し、標本とはその母集団の一部(サブセット)を指します。標本の計算式で分母として(n - 1)を用いる手法はベッセルの補正と呼ばれ、標本から母分散を推定する際の系統的な偏り(バイアス)を補正し、不偏推定量を得るために用いられます。

標本分散

s² = Σ(xᵢ - x̄)² / (n - 1)

n と n-1 の落とし穴に注意

標本分散の計算で 'n' の代わりに '(n - 1)' を用いないと、真の母分散を過小推定してしまいます。標本データから母集団のパラメータを推測する場合は、必ず自由度(df = n - 1)を使用してください。

分散と標準偏差の使い分け

分散と標準偏差のどちらを使うべきかは、分析の目的に完全に依存します。非技術的な読者にデータのばらつきを伝える場合、データの元の単位と一致する標準偏差の方が圧倒的にわかりやすいです。しかし、分散分析(ANOVA)におけるF統計量の計算、現代ポートフォリオ理論でのリスク評価、仮説検定など、中間的な統計計算を行う場合は、数学的に扱いやすい分散が便利です。

分散を使うべきケース...

- 分散分析(ANOVA)やF検定を行う時 - ポートフォリオのリスク計算(共分散行列など)を行う時 - 理論的な統計の証明を行う時 - 機械学習の損失関数(MSEなど)を開発する時

標準偏差を使うべきケース...

- 論文やレポートでデータのばらつきを報告する時 - 経験則(68-95-99.7ルール)を適用する時 - 品質管理のための管理図を作成する時 - 非技術的なステークホルダーにばらつきを説明する時

Pythonで標準偏差と分散を計算する

Pythonの `statistics` モジュールには、分散と標準偏差を計算するための組み込み関数が用意されています。これらの関数を使用する際は、手元のデータが母集団か標本かによって正しいメソッドを選択することが極めて重要です。

python
import statistics

# 標本データセット
data = [14, 18, 12, 15, 11]

# 標本分散と標準偏差を計算
sample_var = statistics.variance(data)
sample_sd = statistics.stdev(data)

# 母分散と母標準偏差を計算
pop_var = statistics.pvariance(data)
pop_sd = statistics.pstdev(data)

print(f"Sample Variance: {sample_var:.2f}")
print(f"Sample SD: {sample_sd:.2f}")
print(f"Population Variance: {pop_var:.2f}")
print(f"Population SD: {pop_sd:.2f}")

よくある質問

  • 分散は負の値になり得ますか? なりません。偏差の2乗和 (xᵢ - μ)² は常にゼロ以上の正の値になるため、分散が負になることは絶対にありません。
  • レポートで分散より標準偏差が好まれるのはなぜですか? 標準偏差は平均と同じ単位を持つため、生のデータと併せて解釈や文脈の把握がしやすいためです。
  • 分散と平均二乗誤差(MSE)は同じですか? 似ていますが異なります。MSEは推定値と真の値の2乗誤差の平均であるのに対し、分散は平均からのばらつきを測るものです。ただし、推定量が平均である場合、MSEと分散は一致します。

Further Reading

Sources

References and further authoritative reading used in preparing this article.

  1. 標準偏差 - Wikipedia
  2. NIST/SEMATECH 統計手法 e-ハンドブック