Что такое дисперсия?
Дисперсия показывает, насколько далеко набор чисел разбросан относительно их среднего значения. Это среднее квадратов отклонений от среднего — и именно на ней основано стандартное отклонение.
Каждый столбик показывает квадрат отклонения от среднего. Дисперсия = среднее значение этих столбиков.
Формула дисперсии
Дисперсия генеральной совокупности
σ² = Σ(xᵢ - μ)² / N
Выборочная дисперсия
s² = Σ(xᵢ - x̄)² / (n-1)
1
Вычислите среднее
Сложите все значения и разделите на их количество.
2
Найдите каждое отклонение
Вычтите среднее из каждой точки данных.
3
Возведите каждое отклонение в квадрат
Это устраняет отрицательные значения и усиливает влияние больших отклонений.
4
Усредните квадраты отклонений
Разделите на N (для совокупности) или на n-1 (для выборки).
Зачем возводить отклонения в квадрат?
Три ключевые причины
1. Устранение отрицательных значений: без возведения в квадрат положительные и отрицательные отклонения взаимно компенсируются, давая сумму, равную нулю.
2. Штраф за выбросы: возведение в квадрат придаёт больший вес значениям, далёким от среднего.
3. Математические свойства: дисперсия обладает полезными алгебраическими свойствами для статистического вывода.
Пример: почему бы просто не использовать абсолютные значения?
Набор данных: 2, 4, 4, 4, 5, 5, 7, 9 (Среднее = 5)
Среднее абсолютное отклонение:
|2-5| + |4-5| + ... = 14
MAD = 14/8 = 1,75
Дисперсия (через квадраты):
(2-5)² + (4-5)² + ... = 32
Var = 32/8 = 4
Дисперсия и стандартное отклонение
Взаимосвязь
Standard Deviation = √Variance → σ = √σ²
Дисперсия (σ²)
- Единицы измерения возведены в квадрат (например, см², ₽²)
- Труднее интерпретировать напрямую
- Удобна для математических операций
- Аддитивна для независимых переменных
Стандартное отклонение (σ)
- Те же единицы, что и у исходных данных
- Легче интерпретировать
- Удобнее для представления результатов
- Используется в z-оценках и доверительных интервалах
Применение дисперсии
Хотя стандартное отклонение используется чаще, у дисперсии есть специфические применения:
- Дисперсионный анализ (ANOVA):Сравнение средних между группами
- Портфельная теория:Дисперсии доходностей используются при оптимизации портфеля
- Регрессия:R² — это доля объяснённой дисперсии относительно общей дисперсии
- Метод главных компонент (PCA):Анализ главных компонент максимизирует объяснённую дисперсию