Что такое дисперсия?
Дисперсия (обозначается как σ² для генеральной совокупности и s² для выборки) — это статистическая мера разброса значений в наборе данных. Она представляет собой среднее арифметическое квадратов отклонений от математического ожидания (μ). Возведение отклонений в квадрат позволяет избежать взаимного погашения отрицательных и положительных значений, давая истинную оценку рассеяния. Однако поскольку отклонения возводятся в квадрат, единицы измерения дисперсии также становятся квадратичными, что делает её интерпретацию на практике довольно абстрактной.
Дисперсия генеральной совокупности
Единицы измерения
Что такое стандартное отклонение?
Стандартное отклонение (обозначается как σ для генеральной совокупности и s для выборки) — это квадратный корень из дисперсии. Оно показывает, на сколько в среднем отдельные значения отклоняются от среднего. Поскольку стандартное отклонение получается извлечением квадратного корня из дисперсии, оно выражается в тех же единицах, что и исходные данные, что делает его гораздо более понятным и удобным для практического применения. Это самая распространенная мера статистического разброса.
Стандартное отклонение генеральной совокупности
Стандартное отклонение против дисперсии: главные отличия
Хотя обе метрики оценивают разброс точек данных относительно среднего, их математическая природа и практическая польза существенно различаются. Главное отличие кроется в единицах измерения и интерпретируемости. Стандартное отклонение — это корень из дисперсии, что возвращает меру разброса к исходным единицам данных. Дисперсия, будучи возведенной в квадрат, непропорционально завышает вес выбросов, делая её крайне чувствительной к экстремальным значениям.
| Характеристика | Дисперсия (σ² / s²) | Стандартное отклонение (σ / s) |
|---|---|---|
| Математическая основа | Среднее квадратов отклонений | Квадратный корень из дисперсии |
| Единицы измерения | Квадратичные единицы (напр., см², ₽²) | Исходные единицы (напр., см, ₽) |
| Интерпретируемость | Абстрактна; сложно соотнести с данными | Интуитивно понятна; напрямую связана с данными |
| Чувствительность к выбросам | Высокая (из-за возведения в квадрат) | Умеренная (корень сглаживает эффект) |
| Основные случаи применения | Статистические выводы, дисперсионный анализ (ANOVA), теория портфелей | Описательная статистика, отчетность, эмпирическое правило |
Формулы для генеральной совокупности и выборки
При расчете этих показателей важно различать генеральную совокупность и выборку. Генеральная совокупность включает всех членов определенной группы, тогда как выборка — это лишь подмножество этой совокупности. Использование формулы для выборки со знаменателем (n - 1) — так называемая поправка Бесселя — устраняет систематическую ошибку при оценке дисперсии генеральной совокупности по выборке, делая оценку несмещенной.
Выборочная дисперсия
Избегайте ловушки n против n-1
Когда использовать дисперсию, а когда стандартное отклонение
Выбор между дисперсией и стандартным отклонением зависит исключительно от ваших аналитических целей. Если вам нужно донести информацию о разбросе данных до нетехнической аудитории, стандартное отклонение — однозначный фаворит, так как оно измеряется в естественных единицах данных. Однако для промежуточных статистических вычислений — таких как расчет F-статистики в дисперсионном анализе, оценка рисков в современной теории портфельных инвестиций или проверка статистических гипотез — математически удобнее использовать дисперсию.
Используйте дисперсию, когда...
Используйте стандартное отклонение, когда...
Расчет стандартного отклонения и дисперсии в Python
Модуль `statistics` в Python предоставляет встроенные функции как для дисперсии, так и для стандартного отклонения. При их использовании критически важно выбрать правильный метод в зависимости от того, представляют ли ваши данные генеральную совокупность или выборку.
import statistics
# Набор данных для примера
data = [14, 18, 12, 15, 11]
# Расчет выборочной дисперсии и стандартного отклонения
sample_var = statistics.variance(data)
sample_sd = statistics.stdev(data)
# Расчет дисперсии и стандартного отклонения генеральной совокупности
pop_var = statistics.pvariance(data)
pop_sd = statistics.pstdev(data)
print(f"Выборочная дисперсия: {sample_var:.2f}")
print(f"Выборочное стандартное отклонение: {sample_sd:.2f}")
print(f"Дисперсия генеральной совокупности: {pop_var:.2f}")
print(f"Стандартное отклонение генеральной совокупности: {pop_sd:.2f}")Часто задаваемые вопросы
- Может ли дисперсия быть отрицательной? Нет, поскольку сумма квадратов отклонений (xᵢ - μ)² всегда больше или равна нулю, дисперсия никогда не может быть отрицательной.
- Почему для отчетности стандартное отклонение предпочтительнее дисперсии? Стандартное отклонение предпочтительнее, потому что оно измеряется в тех же единицах, что и среднее значение, что значительно упрощает его восприятие и интерпретацию вместе с исходными данными.
- Является ли дисперсия тем же самым, что и среднеквадратичная ошибка (MSE)? Они похожи, но MSE обычно измеряет средний квадрат разности между оценочными и фактическими значениями, тогда как дисперсия измеряет разброс относительно среднего. Если в качестве оценки выступает само среднее значение, MSE равна дисперсии.
Further Reading
Sources
References and further authoritative reading used in preparing this article.