Що таке дисперсія?
Дисперсія (позначається як σ² для генеральної сукупності та s² для вибірки) — це статистична міра розкиду чисел у наборі даних. Вона являє собою середнє значення квадратів відхилень від середнього (μ). Завдяки зведенню відхилень у квадрат, дисперсія гарантує, що від'ємні та додатні відхилення не взаємознищуються, забезпечуючи справжню міру розсіювання. Однак, оскільки відхилення підносяться до квадрата, одиниця вимірювання дисперсії є квадратом від початкової одиниці даних, що робить її дещо абстрактною для безпосередньої інтерпретації.
Дисперсія генеральної сукупності
Одиниці вимірювання
Що таке стандартне відхилення?
Стандартне відхилення (позначається як σ для генеральної сукупності та s для вибірки) — це квадратний корінь із дисперсії. Воно вимірює середню величину, на яку окремі точки даних відхиляються від середнього. Оскільки воно отримується шляхом витягування квадратного кореня з дисперсії, стандартне відхилення виражається в тих самих одиницях, що й початкові дані, що робить його набагато інтуїтивнішим та зручнішим для інтерпретації в реальних застосунках. Це найпоширеніша міра статистичного розсіювання.
Стандартне відхилення генеральної сукупності
Стандартне відхилення проти дисперсії: основні відмінності
Хоча обидва показники кількісно визначають розкид точок даних навколо середнього, їхня математична залежність та практична корисність значно відрізняються. Основна відмінність криється у їхніх одиницях вимірювання та зрозумілості. Стандартне відхилення є квадратним коренем із дисперсії, що повертає міру розкиду до початкових одиниць даних. Дисперсія, будучи квадратичним значенням, непропорційно зважує викиди, роблячи її надзвичайно чутливою до екстремальних значень.
| Характеристика | Дисперсія (σ² / s²) | Стандартне відхилення (σ / s) |
|---|---|---|
| Математична основа | Середнє квадратів відхилень | Квадратний корінь із дисперсії |
| Одиниці вимірювання | Квадратні одиниці (напр., см², ₴²) | Початкові одиниці (напр., см, ₴) |
| Інтерпретованість | Абстрактна; важко співвіднести з даними | Інтуїтивна; безпосередньо відповідає даним |
| Чутливість до викидів | Висока (через зведення у квадрат) | Помірна (квадратний корінь згладжує ефект) |
| Основне застосування | Статистичний висновок, ANOVA, теорія портфеля | Описова статистика, звітність, емпіричне правило |
Формули для генеральної сукупності та вибірки
Обчислюючи ці показники, необхідно розрізняти генеральну сукупність та вибірку. Генеральна сукупність включає всіх членів визначеної групи, тоді як вибірка є лише підмножиною цієї сукупності. Використання формули для вибірки із знаменником (n - 1) — відоме як поправка Бесселя — виправляє внутрішнє зміщення при оцінці дисперсії генеральної сукупності за вибіркою, гарантуючи незміщеність оцінки.
Вибіркова дисперсія
Уникайте пастки n проти n-1
Коли використовувати дисперсію, а коли — стандартне відхилення
Вибір між дисперсією та стандартним відхиленням повністю залежить від вашої аналітичної мети. Якщо ви комунікуєте розкид даних нетехнічній аудиторії, стандартне відхилення є беззаперечним фаворитом, оскільки воно відповідає природним одиницям даних. Однак, якщо ви виконуєте проміжні статистичні обчислення — наприклад, розраховуєте F-статистику в ANOVA, оцінюєте ризики в сучасній теорії портфеля або проводите перевірку гіпотез — дисперсія є математично зручнішою.
Використовуйте дисперсію, коли...
Використовуйте стандартне відхилення, коли...
Обчислення стандартного відхилення та дисперсії в Python
Модуль `statistics` у Python надає вбудовані функції як для дисперсії, так і для стандартного відхилення. Використовуючи ці функції, вкрай важливо обрати правильний метод залежно від того, чи представляють ваші дані генеральну сукупність, чи лише вибірку.
import statistics
# Набір даних вибірки
data = [14, 18, 12, 15, 11]
# Обчислення вибіркової дисперсії та стандартного відхилення
sample_var = statistics.variance(data)
sample_sd = statistics.stdev(data)
# Обчислення дисперсії та стандартного відхилення генеральної сукупності
pop_var = statistics.pvariance(data)
pop_sd = statistics.pstdev(data)
print(f"Sample Variance: {sample_var:.2f}")
print(f"Sample SD: {sample_sd:.2f}")
print(f"Population Variance: {pop_var:.2f}")
print(f"Population SD: {pop_sd:.2f}")Часті запитання
- Чи може дисперсія бути від'ємною? Ні, оскільки сума квадратів відхилень (xᵢ - μ)² завжди дорівнює нулю або є додатним значенням, дисперсія ніколи не може бути від'ємною.
- Чому для звітності стандартне відхилення віддають перевагу перед дисперсією? Стандартне відхилення переважає, оскільки воно вимірюється в тих самих одиницях, що й середнє, що робить його набагато легшим для контекстуалізації та інтерпретації разом із початковими даними.
- Чи дисперсія — це те саме, що середньоквадратична помилка (MSE)? Вони схожі, але MSE зазвичай вимірює середній квадрат різниці між оціненими та фактичними значеннями, тоді як дисперсія вимірює розкид відносно середнього. Якщо оцінка є середнім, MSE дорівнює дисперсії.
Further Reading
Sources
References and further authoritative reading used in preparing this article.