Σ
SDCalc
入門Fundamentals·9 min

データのばらつきを測る指標「標準偏差」とは?基本定義から母集団・標本の計算公式、具体例まで徹底解説

標準偏差はデータのばらつき(散らばり)を示す統計学における最も重要な指標の一つです。この記事では、標準偏差の基本定義から、母集団と標本それぞれの標準偏差の計算公式と求め方、データ分析においてなぜ標準偏差が重要なのかを具体例とともにわかりやすく解説します。計算公式の使い方をマスターして、データの傾向を正確に把握しましょう。

By Standard Deviation Calculator Team · Data Science Team·Published

標準偏差とは?

標準偏差は、データセット内の値のばらつき(散らばり)の度合いを定量化する統計的指標です。標準偏差が小さい場合はデータポイントが平均(期待値)の近くに集中していることを示し、大きい場合はデータポイントが広い範囲に散らばっていることを示します。母集団を表すギリシャ文字のσ(シグマ)や、標本を表すsで記述され、記述統計学において最も基本的な概念の一つです。

基本定義

標準偏差は、各データポイントが平均からどの程度離れているかの典型的な距離を測ります。つまり、データが中心から平均してどれくらいばらついているかを教えてくれる指標です。

母標準偏差と標本標準偏差の違い

標準偏差を計算する前に、手元のデータが母集団全体を表しているのか、それとも母集団の標本であるのかを明確にする必要があります。母集団とは特定のグループの全メンバーを指し、標本とはそのグループの代表的な一部です。標本の標準偏差を計算する際には、母集団の分散の不偏推定量を得るために、分母をNではなくn - 1(自由度、df)とする数学的な補正が必要です。

母標準偏差

グループ全体のデータが手元にある場合に使用します。記号はσで表されます。分散の公式における分母はN(母集団のサイズ)です。

標本標準偏差

グループの一部(標本)のデータしかない場合に使用します。記号はsで表されます。偏りを補正するため、分散の公式における分母はn - 1(標本サイズマイナス1)となります。

標準偏差の計算公式の解説

標準偏差の公式は、まず分散を計算し、その後平方根をとるというステップに基づいています。この平方根をとるステップが重要で、ばらつきの指標をデータの元の単位に戻すことができます。主要な構成要素は、xᵢ(各データの値)、μまたは(母平均または標本平均)、そしてNまたはn(データの総数)です。

母標準偏差

σ = √[ Σ(xᵢ - μ)² / N ]

標本標準偏差

s = √[ Σ(xᵢ - x̄)² / (n - 1) ]

具体的な計算ステップと例

あるテストの点数データ[4, 8, 6, 5, 3, 2, 8, 9, 2, 5]を用いて、標本標準偏差を計算してみましょう。公式に沿ってステップごとに計算することで、最終的に平方根をとる前に分散がどのように蓄積されていくかがわかります。

1

平均(x̄)を計算する

すべての値を合計し、データ数で割ります: (4+8+6+5+3+2+8+9+2+5) / 10 = 52 / 10 = 5.2
2

平均との差を求めて2乗する

各値について、平均との差の2乗を求めます: (4-5.2)² = 1.44, (8-5.2)² = 7.84, (6-5.2)² = 0.64, など
3

2乗した差をすべて合計する

2乗した結果をすべて足し合わせます: 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04 = 57.6
4

n - 1(自由度)で割る

合計を標本サイズマイナス1で割ります: 57.6 / (10 - 1) = 57.6 / 9 = 6.4。これが標本分散(σ²)です。
5

平方根をとる

分散の平方根を求めます: √6.4 ≈ 2.53。標本標準偏差は2.53となります。

Pythonで標準偏差を計算する

手動での標準偏差の計算は、特に大規模なデータセットの場合、誤りが生じやすくなります。実際の現場では、統計家やデータサイエンティストはプログラミング言語(Pythonなど)を用い、標準ライブラリを使って瞬時に計算を行います。

python
import statistics

data = [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]

# 標本標準偏差を計算(デフォルト)
sample_sd = statistics.stdev(data)
print(f"Sample SD: {sample_sd:.2f}")

# 母標準偏差を計算
pop_sd = statistics.pstdev(data)
print(f"Population SD: {pop_sd:.2f}")

経験則(68-95-99.7ルール)と標準偏差

データが正規分布(釣鐘型の曲線)に従う場合、標準偏差は非常に予測力を持ちます。経験則(68-95-99.7ルールとも呼ばれます)によれば、データのほぼ全てが平均から±3標準偏差の範囲に収まります。これにより、分析者は外れ値を素早く特定し、特定の観測値が発生する確率を理解することができます。

平均からの範囲データの割合実務での活用
±1σ68.27%日常的で典型的な値の範囲を把握する
±2σ95.45%信頼区間の設定
±3σ99.73%極端な外れ値の検出

標準偏差と分散の違い

分散と標準偏差は、ばらつきを示す密接に関連した指標です。分散(σ²またはs²)は平均からの差の2乗の平均であり、標準偏差は分散の平方根です。分散は2乗された単位(例:円の2乗、センチメートルの2乗)で表されるため、元のデータの文脈で解釈するのが難しくなります。標準偏差は、その指標を元の単位に戻すことでこの問題を解決します。

データの報告時のポイント

データを記述する際は、必ず平均とともに標準偏差も報告しましょう。標準偏差は平均と同じ単位(例:円、センチメートル、キログラム)で表されるため、読者が直感的にばらつきの大きさを理解できるからです。

よくある誤解と注意点

標準偏差は非常に強力なツールですが、誤って使われることも少なくありません。公式の適用を間違えたり、値が示す意味を誤解したりすると、欠陥のあるデータ分析や誤った結論につながる可能性があります。

  • 標本に母集団の公式を使ってしまう: 標本に対してn - 1ではなくNを使うと、計算されるばらつきが人工的に小さくなり、真の母分散を過小評価してしまいます。
  • 正規分布以外に標準偏差を適用する: 経験則は正規分布にのみ適用できます。著しく歪んだデータの場合、標準偏差はばらつきを正確に反映しない場合があります。
  • 標準偏差と標準誤差を混同する: 標準誤差は標本平均の推定精度を測るものですが、標準偏差は元のデータ自体のばらつきを測るものです。

外れ値に注意

標準偏差は極端な外れ値の影響を非常に受けやすい指標です。公式では平均との差を2乗するため、たった1つの巨大な外れ値が標準偏差を不当に押し上げ、実際よりもデータのばらつきが大きく見えてしまうことがあります。

Further Reading

Sources

References and further authoritative reading used in preparing this article.

  1. Wikipedia: 標準偏差
  2. NIST/SEMATECH 統計的方法 e-ハンドブック
  3. カーンアカデミー: 統計学と確率