中心極限定理入門
中心極限定理 (CLT) は、統計学で最も重要な概念のひとつです。正規分布がなぜ自然界に頻繁に現れるのか、そして母集団が正規分布に従わなくても統計的推測ができる理由を説明します。
この定理は統計学の実践に深い影響を与えました。中心極限定理が理解される前、統計学者は正規分布に従うデータしか扱えませんでした。CLTは、元の分布に関係なく標本平均が予測可能な振る舞いをすることを示し、現代の調査研究、品質管理、科学的推測を可能にする画期的な発見でした。
重要な洞察
この驚くべき事実を考えてみてください。どんな奇妙な分布—二峰性、強い歪み、一様分布、完全に不規則な形—であっても、十分な大きさの標本を繰り返し取り、その平均を計算すれば、それらの平均は真の母集団平均を中心とした美しいベルカーブを描きます。
中心極限定理の記述
平均μ、標準偏差σの母集団からサイズnの無作為標本を取ると、nが大きくなるにつれて、標本平均の分布は次のパラメータを持つ正規分布に近づきます。
標本平均の分布
標本サイズが十分に大きければ(一般的にn ≥ 30)、どんな母集団の分布でもこれが成り立ちます。
σ/√nは平均の標準誤差と呼ばれます。標本サイズが大きくなるほど減少することに注目してください。標本が大きいほど母集団平均のより精密な推定が得られます。標本サイズを4倍にすると標準誤差は半分になります。
実用的な意味
中心極限定理の成立条件
中心極限定理の近似が有効であるためには、いくつかの条件を満たす必要があります。
- 1. 無作為抽出:各標本は母集団から無作為に抽出され、各観測値が互いに独立している必要があります。
- 2. 標本サイズ:一般にn ≥ 30であればほとんどの分布で有効です。歪みが大きい母集団ほどより大きな標本が必要で、対称な母集団ではより小さな標本でも機能します。
- 3. 有限モーメント:母集団は有限の平均μと有限の標準偏差σを持つ必要があります。コーシー分布のような理論的分布はこの条件を満たしません。
- 4. 独立性:非復元抽出の場合、標本は母集団の10%未満であることが近似的な独立性を確保するために必要です。
「n ≥ 30」のルールは目安であり、厳密な境界値ではありません。対称な分布(一様分布など)ではn = 10でも十分な場合があります。強く歪んだ分布ではn = 100以上が必要になることもあります。判断に迷う場合は、シミュレーションやブートストラップ法で正規近似が妥当か確認しましょう。
中心極限定理を視覚的に理解する
中心極限定理を真に理解するために、公平なサイコロを振ることを想像してみてください。1回のサイコロの目の分布は一様です—1から6の各数字が等しい確率(1/6)で出ます。これはまったく正規分布ではありません。
では、サイコロを2回振って平均を計算すると想像してください。2回の場合、平均は1(両方1)から6(両方6)までの範囲ですが、3.5のような中間の値はより多くの組み合わせで実現できるため、より出やすくなります。分布はすでに中央が高くなり始めています。
サイコロを30回振って平均を計算すると、その平均は3.5にとても近くなり、この実験を何千回も繰り返せば、それらの平均は3.5を中心とした標準偏差σ/√30 ≈ 1.71/5.48 ≈ 0.31のほぼ完璧なベルカーブを形成します。
ぜひ試してみてください
実世界での応用
中心極限定理は、信頼区間、仮説検定、その他多くの統計手法の基礎です。Zスコアやtスコアを使って母集団のパラメータについて推測することを可能にします。
調査研究: 政治的世論調査、市場調査、公衆衛生調査はすべて中心極限定理に依存しています。世論調査機関が「ある候補の支持率は48%、誤差の範囲は3%」と報告する際、その誤差の範囲はCLTから導かれる標準誤差の公式で計算されています。
品質管理: 製造工程ではCLTに基づく管理図を使用します。製造バッチからの標本平均は、特定の限界(通常は工程平均から±3標準誤差)内に収まることが期待されます。この限界を超えた場合は潜在的な問題を示唆します。
A/Bテスト: IT企業が新機能をテストする際、グループ間のコンバージョン率を比較します。個々のユーザーの行動は二値的(コンバートするかしないか)ですが、CLTにより、何千人ものユーザーの平均コンバージョン率は正規分布に従い、統計的比較が可能になります。
科学研究: 医療試験、心理学実験、そしてほぼすべての定量的研究が、標本データからp値や信頼区間を生成するためにCLTに依存しています。
よくある誤解
誤解 #1
誤解 #2: 「n = 30は常に有効な魔法の数字」実際には、必要な標本サイズは母集団がどれくらい非正規かによります。対称な分布ではより小さな標本で十分であり、強く歪んだ分布や裾の重い分布ではより大きな標本が必要です。
誤解 #3: 「CLTはすべての分布に対して機能する」CLTには有限の平均と分散が必要です。コーシー分布のように分散が定義されない分布では、標本サイズがどれだけ大きくてもCLTは成り立ちません。
誤解 #4: 「統計を使う前にデータが正規かどうかチェックしなければならない」CLTのおかげで、多くの統計手法は十分に大きな標本の平均を扱う限り、非正規データでも良好に機能します。統計手法の非正規性に対する頑健性は、CLTの最も大きな恩恵のひとつです。