Σ
SDCalc
入門概念·10 min

標準偏差と範囲:完全比較ガイド

散布度の指標として標準偏差と範囲を徹底比較。公式、利点、限界、使い分けの場面を実例とともに解説します。

散らばりを測る2つの方法

範囲(レンジ)標準偏差もデータの散らばりを測りますが、散布度の根本的に異なる側面を捉えます。どちらをいつ使うかを理解することは、適切なデータ分析に不可欠です。

範囲は極値について教えてくれます—最大値と最小値がどれくらい離れているか。標準偏差は平均値の周りの典型的な散らばりについて教えてくれます。どちらも有用ですが、用途が異なります。

使い分けの早見表

極値が重要な場合(品質管理の限界値、温度変動など)は範囲を使用。典型的なばらつきと統計的厳密さが必要な場合は標準偏差を使用。

定義と公式

範囲

範囲 = 最大値 - 最小値 最も単純な散布度の指標。データセットのサイズに関わらず2つの値のみを考慮します。

標準偏差

s = √[Σ(xᵢ - x̄)² / (n-1)] すべてのデータ点を使い、平均からの平均的な距離を測ります。

直接比較

範囲の長所と短所

長所: - 計算が極めて簡単—引き算するだけ - 理解しやすく伝えやすい - データの幅を直接示す - 迅速な品質チェックに便利 短所: - 中間の値をすべて無視する - 外れ値に極めて敏感 - 標本サイズの増大に伴い増加する傾向 - 統計的に非効率

標準偏差の長所と短所

長所: - すべてのデータ点を使用する - 統計的に効率的で安定 - 標本サイズが増えても安定 - 高度な統計分析の基礎 短所: - 手計算がより複雑 - 統計の専門家でない人には直感的でない - 重要な極端な値を隠す可能性 - 外れ値の影響を受ける(代わりにMADを使用)

使い分けのガイド

範囲を使うべき場合:

  • 散らばりの大まかな見積もりが必要な場合
  • 極値が重要な場合(HVAC設計のための温度範囲など)
  • 外れ値がないことがわかっているクリーンなデータの場合
  • 統計に不慣れな対象者への説明の場合
  • 標本サイズが小さく固定されている場合(すべての比較で同じサイズ)

標準偏差を使うべき場合:

  • 統計分析や仮説検定を行う場合
  • 異なる標本サイズ間でばらつきを比較する場合
  • 信頼区間やp値を計算する場合
  • 極端な値ではなく典型的なばらつきを評価する場合
  • 外れ値が指標を支配すべきでないデータの場合

実践例

例:日々の気温

データ:72°F, 75°F, 74°F, 73°F, 76°F, 71°F, 74°F 範囲: 76 - 71 = 5°F(気温の振れ幅) 標準偏差: 1.72°F(日ごとの典型的な変動) どちらも有用です。範囲はHVACの能力設計に、標準偏差は快適性の一貫性評価に使えます。

例:外れ値を含むテスト成績

データ:85, 88, 87, 86, 89, 42(勉強しなかった学生1人) 範囲: 89 - 42 = 47点(外れ値に支配されている!) 標準偏差: 17.4点(影響を受けるが程度は小さい) 範囲はここでは誤解を招きます。標準偏差の使用か外れ値の除外を検討してください。

発展的な考察

範囲と標準偏差の関係: 正規分布のデータでは、一般的な標本サイズにおいて 範囲 ≈ 4〜6 × SD となります。これにより、両者間の大まかな換算が可能です。

四分位範囲 (IQR): 最大値−最小値の代わりにQ3 − Q1を使う折衷案です。範囲よりも頑健でありながら、標準偏差よりもシンプルです。

ベストプラクティス

適切な場合は両方の指標を報告しましょう。「温度範囲は15°F(SD = 4.2°F)」とすれば、極端な値と典型的な変動の両方について完全な情報を読者に提供できます。