標準偏差とは?
標準偏差は、データセット内の値のばらつき(散らばり)の度合いを定量化する統計的指標です。標準偏差が小さい場合はデータポイントが平均(期待値)の近くに集中していることを示し、大きい場合はデータポイントが広い範囲に散らばっていることを示します。母集団を表すギリシャ文字のσ(シグマ)や、標本を表すsで記述され、記述統計学において最も基本的な概念の一つです。
基本定義
母標準偏差と標本標準偏差の違い
標準偏差を計算する前に、手元のデータが母集団全体を表しているのか、それとも母集団の標本であるのかを明確にする必要があります。母集団とは特定のグループの全メンバーを指し、標本とはそのグループの代表的な一部です。標本の標準偏差を計算する際には、母集団の分散の不偏推定量を得るために、分母をNではなくn - 1(自由度、df)とする数学的な補正が必要です。
母標準偏差
標本標準偏差
標準偏差の計算公式の解説
標準偏差の公式は、まず分散を計算し、その後平方根をとるというステップに基づいています。この平方根をとるステップが重要で、ばらつきの指標をデータの元の単位に戻すことができます。主要な構成要素は、xᵢ(各データの値)、μまたはx̄(母平均または標本平均)、そしてNまたはn(データの総数)です。
母標準偏差
標本標準偏差
具体的な計算ステップと例
あるテストの点数データ[4, 8, 6, 5, 3, 2, 8, 9, 2, 5]を用いて、標本標準偏差を計算してみましょう。公式に沿ってステップごとに計算することで、最終的に平方根をとる前に分散がどのように蓄積されていくかがわかります。
平均(x̄)を計算する
平均との差を求めて2乗する
2乗した差をすべて合計する
n - 1(自由度)で割る
平方根をとる
Pythonで標準偏差を計算する
手動での標準偏差の計算は、特に大規模なデータセットの場合、誤りが生じやすくなります。実際の現場では、統計家やデータサイエンティストはプログラミング言語(Pythonなど)を用い、標準ライブラリを使って瞬時に計算を行います。
import statistics
data = [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]
# 標本標準偏差を計算(デフォルト)
sample_sd = statistics.stdev(data)
print(f"Sample SD: {sample_sd:.2f}")
# 母標準偏差を計算
pop_sd = statistics.pstdev(data)
print(f"Population SD: {pop_sd:.2f}")経験則(68-95-99.7ルール)と標準偏差
データが正規分布(釣鐘型の曲線)に従う場合、標準偏差は非常に予測力を持ちます。経験則(68-95-99.7ルールとも呼ばれます)によれば、データのほぼ全てが平均から±3標準偏差の範囲に収まります。これにより、分析者は外れ値を素早く特定し、特定の観測値が発生する確率を理解することができます。
| 平均からの範囲 | データの割合 | 実務での活用 |
|---|---|---|
| ±1σ | 68.27% | 日常的で典型的な値の範囲を把握する |
| ±2σ | 95.45% | 信頼区間の設定 |
| ±3σ | 99.73% | 極端な外れ値の検出 |
標準偏差と分散の違い
分散と標準偏差は、ばらつきを示す密接に関連した指標です。分散(σ²またはs²)は平均からの差の2乗の平均であり、標準偏差は分散の平方根です。分散は2乗された単位(例:円の2乗、センチメートルの2乗)で表されるため、元のデータの文脈で解釈するのが難しくなります。標準偏差は、その指標を元の単位に戻すことでこの問題を解決します。
データの報告時のポイント
よくある誤解と注意点
標準偏差は非常に強力なツールですが、誤って使われることも少なくありません。公式の適用を間違えたり、値が示す意味を誤解したりすると、欠陥のあるデータ分析や誤った結論につながる可能性があります。
- 標本に母集団の公式を使ってしまう: 標本に対してn - 1ではなくNを使うと、計算されるばらつきが人工的に小さくなり、真の母分散を過小評価してしまいます。
- 正規分布以外に標準偏差を適用する: 経験則は正規分布にのみ適用できます。著しく歪んだデータの場合、標準偏差はばらつきを正確に反映しない場合があります。
- 標準偏差と標準誤差を混同する: 標準誤差は標本平均の推定精度を測るものですが、標準偏差は元のデータ自体のばらつきを測るものです。
外れ値に注意
Further Reading
Sources
References and further authoritative reading used in preparing this article.