Вступ до центральної граничної теореми
Центральна гранична теорема (ЦГТ) — одна з найважливіших концепцій у статистиці. Вона пояснює, чому нормальний розподіл так часто зустрічається в природі та чому ми можемо робити статистичні висновки, навіть коли генеральна сукупність не є нормально розподіленою.
Теорема має глибокі наслідки для статистичної практики. До того як ЦГТ була осмислена, статистики могли працювати лише з нормально розподіленими даними. ЦГТ звільнила статистику, продемонструвавши, що вибіркові середні поводяться передбачувано незалежно від вихідного розподілу — прорив, який зробив можливими сучасні опитування, контроль якості та наукові дослідження.
Ключова ідея
Задумайтесь над цим дивовижним фактом: генеральна сукупність може мати будь-який химерний розподіл — бімодальний, сильно асиметричний, рівномірний або зовсім нерегулярний. Якщо багаторазово брати вибірки достатнього обсягу й обчислювати їх середні, ці середні утворять гарну дзвоноподібну криву, центровану на справжньому середньому генеральної сукупності.
Формулювання центральної граничної теореми
Якщо ви берете випадкові вибірки обсягом n із генеральної сукупності із середнім μ та стандартним відхиленням σ, то зі збільшенням n розподіл вибіркових середніх наближається до нормального розподілу з параметрами:
Розподіл вибіркового середнього
Це працює для будь-якого розподілу генеральної сукупності, за умови, що обсяг вибірки достатньо великий (зазвичай n ≥ 30).
Величина σ/√n називається стандартною похибкою середнього. Зверніть увагу, як вона зменшується зі збільшенням обсягу вибірки — більші вибірки дають точніші оцінки середнього генеральної сукупності. Збільшення обсягу вибірки вчетверо зменшує стандартну похибку вдвічі.
Практичне значення
Умови застосування ЦГТ
Центральна гранична теорема вимагає дотримання кількох умов, щоб апроксимація була коректною:
- 1. Випадковий відбір:Кожна вибірка має бути взята випадково з генеральної сукупності, причому кожне спостереження незалежне від інших.
- 2. Обсяг вибірки:Зазвичай n ≥ 30 достатньо для більшості розподілів. Більш асиметричні сукупності потребують більших вибірок; для симетричних сукупностей можуть підійти й менші.
- 3. Скінченні моменти:Генеральна сукупність повинна мати скінченне середнє μ та скінченне стандартне відхилення σ. Деякі теоретичні розподіли (як розподіл Коші) порушують цю умову.
- 4. Незалежність:Вибірки мають становити менше 10% генеральної сукупності при відборі без повернення, щоб забезпечити приблизну незалежність.
Правило “n ≥ 30” — це орієнтир, а не жорстка межа. Для симетричних розподілів (наприклад, рівномірного) може бути достатньо n = 10. Для сильно асиметричних розподілів може знадобитися n = 100 і більше. У разі сумнівів використовуйте моделювання або бутстреп-методи, щоб перевірити обґрунтованість нормальної апроксимації.
Візуалізація ЦГТ у дії
Щоб по-справжньому зрозуміти ЦГТ, уявіть кидання правильного кубика. Розподіл одного кидка рівномірний — кожне число від 1 до 6 має однакову ймовірність (1/6). Це зовсім не нормальний розподіл.
Тепер уявіть, що ви кидаєте кубик двічі й обчислюєте середнє. При двох кидках середнє може варіюватися від 1 (обидва кидки — 1) до 6 (обидва — 6), але серединні значення на кшталт 3,5 є більш імовірними, бо існує більше способів їх отримати. Розподіл вже починає набувати піку посередині.
Киньте кубик 30 разів і обчисліть середнє? Це середнє буде дуже близьким до 3,5, і якщо ви повторите цей експеримент тисячі разів, ці середні утворять майже ідеальну дзвоноподібну криву з центром у 3,5 та стандартним відхиленням σ/√30 ≈ 1,71/5,48 ≈ 0,31.
Спробуйте самі
Застосування в реальному світі
ЦГТ є фундаментом для довірчих інтервалів, перевірки гіпотез та багатьох інших статистичних методів. Вона дозволяє використовувати z-оцінки та t-оцінки для висновків щодо параметрів генеральної сукупності.
Соціологічні дослідження: Політичні опитування, маркетингові дослідження та дослідження громадського здоров’я — усі ґрунтуються на ЦГТ. Коли соціологи повідомляють, що кандидата підтримують 48% з похибкою 3%, ця похибка обчислюється за формулою стандартної похибки, що випливає з ЦГТ.
Контроль якості: Виробничі процеси використовують контрольні карти на основі ЦГТ. Вибіркові середні з виробничих партій мають потрапляти у визначені межі (зазвичай ±3 стандартні похибки від середнього процесу). Порушення сигналізують про потенційні проблеми.
A/B-тестування: Коли технологічні компанії тестують нові функції, вони порівнюють показники конверсії між групами. ЦГТ гарантує, що навіть якщо поведінка окремого користувача є бінарною (конверсія або ні), середній показник конверсії серед тисяч користувачів підпорядковується нормальному розподілу, що уможливлює статистичне порівняння.
Наукові дослідження: Медичні випробування, психологічні експерименти та практично всі кількісні дослідження покладаються на ЦГТ для отримання p-значень та довірчих інтервалів із вибіркових даних.
Поширені хибні уявлення
Хибне уявлення №1
Хибне уявлення №2: “n = 30 — це магічне число, яке завжди працює.” Насправді необхідний обсяг вибірки залежить від ступеня ненормальності генеральної сукупності. Симетричні розподіли потребують менших вибірок; сильно асиметричні або важкохвості — більших.
Хибне уявлення №3: “ЦГТ працює для всіх розподілів.” ЦГТ вимагає скінченного середнього та дисперсії. Розподіли на кшталт розподілу Коші мають невизначену дисперсію і не підпорядковуються ЦГТ незалежно від обсягу вибірки.
Хибне уявлення №4: “Мені потрібно перевіряти нормальність даних, перш ніж використовувати статистику.” Завдяки ЦГТ багато статистичних процедур добре працюють навіть із ненормальними даними, якщо ви працюєте із середніми достатньо великих вибірок. Стійкість статистичних методів до ненормальності — один із найбільших подарунків ЦГТ.