Що таке дисперсія?
Дисперсія вимірює, наскільки набір чисел розкиданий відносно їхнього середнього значення. Це середнє квадратів відхилень від середнього — і саме вона є фундаментом, на якому побудовано стандартне відхилення.
Кожний стовпчик показує квадрат відхилення від середнього. Дисперсія = середнє цих стовпчиків.
Формула дисперсії
Дисперсія генеральної сукупності
σ² = Σ(xᵢ - μ)² / N
Вибіркова дисперсія
s² = Σ(xᵢ - x̄)² / (n-1)
1
Обчислити середнє
Додайте всі значення та поділіть на їх кількість.
2
Знайти кожне відхилення
Відніміть середнє від кожної точки даних.
3
Піднести кожне відхилення до квадрата
Це усуває від’ємні значення та підкреслює великі відхилення.
4
Усереднити квадрати відхилень
Поділіть на N (генеральна сукупність) або n-1 (вибірка).
Навіщо підносити відхилення до квадрата?
Три ключові причини
1. Усунення від’ємних значень: без піднесення до квадрата додатні та від’ємні відхилення скасовували б одне одного, даючи суму нуль.
2. Штрафування викидів: піднесення до квадрата надає більшої ваги значенням, далеким від середнього.
3. Математичні властивості: дисперсія має корисні алгебраїчні властивості для статистичного висновування.
Приклад: чому б не використовувати абсолютні значення?
Набір даних: 2, 4, 4, 4, 5, 5, 7, 9 (Середнє = 5)
Середнє абсолютне відхилення:
|2-5| + |4-5| + ... = 14
MAD = 14/8 = 1,75
Дисперсія (квадрати):
(2-5)² + (4-5)² + ... = 32
Var = 32/8 = 4
Дисперсія проти стандартного відхилення
The Relationship
Standard Deviation = √Variance → σ = √σ²
Дисперсія (σ²)
- Одиниці виміру підносяться до квадрата (наприклад, см², $²)
- Складніше інтерпретувати безпосередньо
- Корисна для математичних операцій
- Адитивна для незалежних змінних
Стандартне відхилення (σ)
- Ті самі одиниці, що й у вихідних даних
- Легше інтерпретувати
- Краще для комунікації
- Використовується в z-оцінках та довірчих інтервалах
Застосування дисперсії
Хоча стандартне відхилення повідомляється частіше, дисперсія має свої специфічні застосування:
- ANOVA:Дисперсійний аналіз порівнює середні між групами
- Теорія портфеля:Дисперсії дохідностей використовуються в оптимізації
- Регресія:R² — це пояснена дисперсія, поділена на загальну дисперсію
- PCA:Метод головних компонент максимізує пояснену дисперсію