Что такое стандартное отклонение?
Стандартное отклонение — это статистический показатель, который оценивает величину разброса или вариативности в наборе данных. Низкое стандартное отклонение говорит о том, что значения лежат близко к среднему (математическому ожиданию), а высокое — что они сильно разбросаны относительно среднего. Обозначается греческой буквой σ (сигма) для генеральной совокупности и буквой s для выборки. Это одно из базовых понятий описательной статистики.
Суть определения
Стандартное отклонение генеральной совокупности и выборки
Прежде чем считать стандартное отклонение, нужно понять, перед вами вся генеральная совокупность или лишь выборка из неё. Генеральная совокупность включает абсолютно все элементы изучаемой группы, тогда как выборка — это лишь её представительная часть. При расчете стандартного отклонения для выборки нужна математическая корректировка — использование n - 1 (степеней свободы, или df) вместо N — чтобы получить несмещенную оценку дисперсии генеральной совокупности.
Стандартное отклонение генеральной совокупности
Стандартное отклонение выборки
Разбор формулы стандартного отклонения
Формулы стандартного отклонения строятся на расчете дисперсии, из которой затем извлекается квадратный корень. Этот шаг критически важен: он возвращает меру разброса в исходные единицы измерения данных. Ключевые компоненты формулы: xᵢ (каждое отдельное значение), μ или x̄ (среднее генеральной совокупности или выборки) и N или n (общее количество значений).
СКО генеральной совокупности
СКО выборки
Пример расчета пошагово
Давайте вычислим выборочное стандартное отклонение для небольшого набора баллов за тест: [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]. Пошаговый расчет по формуле покажет, как накапливается дисперсия перед тем, как мы извлечем финальный квадратный корень.
Вычислите среднее (x̄)
Вычтите среднее и возведите в квадрат
Просуммируйте квадраты отклонений
Разделите на n - 1 (степени свободы)
Извлеките квадратный корень
Расчет стандартного отклонения в Python
Считать стандартное отклонение вручную чревато ошибками, особенно на больших массивах данных. На практике статистики и аналитики данных используют языки программирования вроде Python, чтобы вычислять его моментально с помощью встроенных библиотек.
import statistics
data = [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]
# Вычисление выборочного стандартного отклонения (по умолчанию)
sample_sd = statistics.stdev(data)
print(f"Sample SD: {sample_sd:.2f}")
# Вычисление стандартного отклонения генеральной совокупности
pop_sd = statistics.pstdev(data)
print(f"Population SD: {pop_sd:.2f}")Эмпирическое правило и стандартное отклонение
Если данные подчиняются нормальному распределению (колоколообразная кривая), стандартное отклонение становится мощным инструментом прогнозирования. Эмпирическое правило, также известное как правило 68-95-99.7, гласит, что почти все данные лежат в пределах трех стандартных отклонений от среднего. Это позволяет аналитикам быстро находить выбросы и оценивать вероятность появления конкретного наблюдения.
| Интервал от среднего | Доля данных | Применение |
|---|---|---|
| ±1σ | 68.27% | Определение типичных, повседневных значений |
| ±2σ | 95.45% | Построение доверительных интервалов |
| ±3σ | 99.73% | Обнаружение экстремальных выбросов |
Стандартное отклонение против дисперсии
Дисперсия и стандартное отклонение — тесно связанные меры разброса. Дисперсия (σ² или s²) — это среднее арифметическое квадратов отклонений от среднего, а стандартное отклонение — это квадратный корень из дисперсии. Поскольку дисперсия выражается в квадратах единиц измерения (например, рубли в квадрате, сантиметры в квадрате), её сложно интерпретировать в контексте исходных данных. Стандартное отклонение решает эту проблему, возвращая меру разброса в исходные единицы.
Как представлять данные
Частые ошибки, которых стоит избегать
Несмотря на то что стандартное отклонение — мощный инструмент, его часто используют неверно. Ошибочное применение формул или неверная трактовка значения могут привести к искажению анализа и ложным выводам.
- Использование формулы для совокупности на выборке: Забыть использовать n - 1 для выборки — значит искусственно занизить расчетный разброс и недооценить истинную дисперсию генеральной совокупности.
- Применение СКО к ненормальным распределениям: Эмпирическое правило работает только для нормального распределения. При сильной асимметрии данных СКО может неточно отражать разброс.
- Путаница между СКО и стандартной ошибкой: Стандартная ошибка измеряет точность оценки выборочного среднего, в то время как стандартное отклонение измеряет разброс самих исходных данных.
Остерегайтесь выбросов
Further Reading
Sources
References and further authoritative reading used in preparing this article.