Σ
SDCalc
СреднийFundamentals·9 min

Стандартное отклонение и дисперсия: главные различия

Разберитесь в ключевых отличиях дисперсии и стандартного отклонения. Узнайте, когда применять каждую метрику, их формулы и влияние на анализ данных.

By Standard Deviation Calculator Team · Data Science Team·Published

Что такое дисперсия?

Дисперсия (обозначается как σ² для генеральной совокупности и s² для выборки) — это статистическая мера разброса значений в наборе данных. Она представляет собой среднее арифметическое квадратов отклонений от математического ожидания (μ). Возведение отклонений в квадрат позволяет избежать взаимного погашения отрицательных и положительных значений, давая истинную оценку рассеяния. Однако поскольку отклонения возводятся в квадрат, единицы измерения дисперсии также становятся квадратичными, что делает её интерпретацию на практике довольно абстрактной.

Дисперсия генеральной совокупности

σ² = Σ(xᵢ - μ)² / N

Единицы измерения

Если ваши данные представляют рост в сантиметрах, дисперсия будет выражена в сантиметрах в квадрате (см²). Именно эта квадратичная единица является одной из главных причин, почему дисперсию сложно интерпретировать в реальных практических задачах.

Что такое стандартное отклонение?

Стандартное отклонение (обозначается как σ для генеральной совокупности и s для выборки) — это квадратный корень из дисперсии. Оно показывает, на сколько в среднем отдельные значения отклоняются от среднего. Поскольку стандартное отклонение получается извлечением квадратного корня из дисперсии, оно выражается в тех же единицах, что и исходные данные, что делает его гораздо более понятным и удобным для практического применения. Это самая распространенная мера статистического разброса.

Стандартное отклонение генеральной совокупности

σ = √(Σ(xᵢ - μ)² / N)

Стандартное отклонение против дисперсии: главные отличия

Хотя обе метрики оценивают разброс точек данных относительно среднего, их математическая природа и практическая польза существенно различаются. Главное отличие кроется в единицах измерения и интерпретируемости. Стандартное отклонение — это корень из дисперсии, что возвращает меру разброса к исходным единицам данных. Дисперсия, будучи возведенной в квадрат, непропорционально завышает вес выбросов, делая её крайне чувствительной к экстремальным значениям.

ХарактеристикаДисперсия (σ² / s²)Стандартное отклонение (σ / s)
Математическая основаСреднее квадратов отклоненийКвадратный корень из дисперсии
Единицы измеренияКвадратичные единицы (напр., см², ₽²)Исходные единицы (напр., см, ₽)
ИнтерпретируемостьАбстрактна; сложно соотнести с даннымиИнтуитивно понятна; напрямую связана с данными
Чувствительность к выбросамВысокая (из-за возведения в квадрат)Умеренная (корень сглаживает эффект)
Основные случаи примененияСтатистические выводы, дисперсионный анализ (ANOVA), теория портфелейОписательная статистика, отчетность, эмпирическое правило

Формулы для генеральной совокупности и выборки

При расчете этих показателей важно различать генеральную совокупность и выборку. Генеральная совокупность включает всех членов определенной группы, тогда как выборка — это лишь подмножество этой совокупности. Использование формулы для выборки со знаменателем (n - 1) — так называемая поправка Бесселя — устраняет систематическую ошибку при оценке дисперсии генеральной совокупности по выборке, делая оценку несмещенной.

Выборочная дисперсия

s² = Σ(xᵢ - x̄)² / (n - 1)

Избегайте ловушки n против n-1

Использование 'n' вместо '(n - 1)' для выборочной дисперсии приведет к систематической недооценке истинной дисперсии генеральной совокупности. Всегда используйте степени свободы (df = n - 1) при работе с выборочными данными для оценки параметров генеральной совокупности.

Когда использовать дисперсию, а когда стандартное отклонение

Выбор между дисперсией и стандартным отклонением зависит исключительно от ваших аналитических целей. Если вам нужно донести информацию о разбросе данных до нетехнической аудитории, стандартное отклонение — однозначный фаворит, так как оно измеряется в естественных единицах данных. Однако для промежуточных статистических вычислений — таких как расчет F-статистики в дисперсионном анализе, оценка рисков в современной теории портфельных инвестиций или проверка статистических гипотез — математически удобнее использовать дисперсию.

Используйте дисперсию, когда...

- Проводите дисперсионный анализ (ANOVA) или F-тесты - Оцениваете риск портфеля (ковариационные матрицы) - Делаете теоретические статистические доказательства - Разрабатываете функции потерь в машинном обучении (например, MSE)

Используйте стандартное отклонение, когда...

- Отчитываетесь о разбросе данных в публикациях - Применяете эмпирическое правило (68-95-99.7) - Строите контрольные карты для управления качеством - Объясняете вариативность нетехническим специалистам

Расчет стандартного отклонения и дисперсии в Python

Модуль `statistics` в Python предоставляет встроенные функции как для дисперсии, так и для стандартного отклонения. При их использовании критически важно выбрать правильный метод в зависимости от того, представляют ли ваши данные генеральную совокупность или выборку.

python
import statistics

# Набор данных для примера
data = [14, 18, 12, 15, 11]

# Расчет выборочной дисперсии и стандартного отклонения
sample_var = statistics.variance(data)
sample_sd = statistics.stdev(data)

# Расчет дисперсии и стандартного отклонения генеральной совокупности
pop_var = statistics.pvariance(data)
pop_sd = statistics.pstdev(data)

print(f"Выборочная дисперсия: {sample_var:.2f}")
print(f"Выборочное стандартное отклонение: {sample_sd:.2f}")
print(f"Дисперсия генеральной совокупности: {pop_var:.2f}")
print(f"Стандартное отклонение генеральной совокупности: {pop_sd:.2f}")

Часто задаваемые вопросы

  • Может ли дисперсия быть отрицательной? Нет, поскольку сумма квадратов отклонений (xᵢ - μ)² всегда больше или равна нулю, дисперсия никогда не может быть отрицательной.
  • Почему для отчетности стандартное отклонение предпочтительнее дисперсии? Стандартное отклонение предпочтительнее, потому что оно измеряется в тех же единицах, что и среднее значение, что значительно упрощает его восприятие и интерпретацию вместе с исходными данными.
  • Является ли дисперсия тем же самым, что и среднеквадратичная ошибка (MSE)? Они похожи, но MSE обычно измеряет средний квадрат разности между оценочными и фактическими значениями, тогда как дисперсия измеряет разброс относительно среднего. Если в качестве оценки выступает само среднее значение, MSE равна дисперсии.

Further Reading

Sources

References and further authoritative reading used in preparing this article.

  1. Стандартное отклонение — Википедия
  2. NIST/SEMATECH e-Справочник по статистическим методам