Стандартное отклонение (σ / s)
Мера величины вариации или рассеивания в наборе значений. Является квадратным корнем из дисперсии и выражается в тех же единицах, что и данные.
Ключевые статистические термины и определения
Мера величины вариации или рассеивания в наборе значений. Является квадратным корнем из дисперсии и выражается в тех же единицах, что и данные.
Среднее значение квадратов отклонений от среднего. Дисперсия количественно определяет степень рассеивания в наборе данных и является квадратом стандартного отклонения.
Среднее арифметическое набора значений, вычисляемое путём суммирования всех значений и деления на их количество. Представляет центральную тенденцию данных.
Среднее значение в отсортированном наборе данных. При чётном количестве значений медиана — это среднее двух центральных значений. Устойчива к выбросам.
Значение, которое встречается наиболее часто в наборе данных. Набор данных может иметь одну моду (унимодальный), несколько мод (мультимодальный) или не иметь моды вовсе.
Разница между наибольшим и наименьшим значениями в наборе данных. Хотя легко вычисляется, учитывает только два крайних значения и чувствителен к выбросам.
Полный набор всех объектов или наблюдений, представляющих интерес в исследовании. Параметры совокупности обычно обозначаются греческими буквами (μ, σ).
Подмножество генеральной совокупности, отобранное для анализа. Выборочные статистики обычно обозначаются латинскими буквами (x̄, s) и используются для оценки параметров совокупности.
Использование n−1 вместо n в знаменателе при вычислении выборочной дисперсии. Эта поправка обеспечивает несмещённую оценку дисперсии генеральной совокупности по выборке.
Симметричное колоколообразное распределение вероятностей, где среднее, медиана и мода равны. Многие природные явления приблизительно следуют нормальному распределению.
Для нормально распределённых данных приблизительно 68% значений находятся в пределах ±1σ, 95% — в пределах ±2σ и 99,7% — в пределах ±3σ от среднего.
Количество стандартных отклонений, на которое точка данных отличается от среднего, вычисляется как Z = (X − μ) / σ. Z-оценки позволяют сравнивать значения из различных распределений.
Стандартное отклонение выборочного распределения статистики, чаще всего среднего. SE = σ/√n, уменьшается с увеличением объёма выборки.
Диапазон значений, который с заданным уровнем доверия (например, 95%) вероятно содержит истинный параметр совокупности. Более широкие интервалы указывают на меньшую точность.
Точка данных, значительно отличающаяся от других наблюдений. Распространённые методы обнаружения включают значения за пределами ±2 или ±3 стандартных отклонений от среднего.
Отношение стандартного отклонения к среднему, выраженное в процентах (CV = σ/μ × 100%). Позволяет сравнивать изменчивость между наборами данных с разными масштабами.
Мера асимметрии распределения вероятностей. Положительная асимметрия означает, что хвост распространяется вправо; отрицательная — что он распространяется влево.
Мера тяжести хвостов распределения вероятностей. Высокий эксцесс указывает на тяжёлые хвосты и острый пик; низкий эксцесс указывает на лёгкие хвосты и плоский пик.
Количество независимых значений, которые могут изменяться в статистическом расчёте. Для выборочного стандартного отклонения df = n − 1, что отражает поправку Бесселя.
Утверждает, что выборочное распределение среднего приближается к нормальному распределению по мере увеличения объёма выборки, независимо от распределения генеральной совокупности.
Статистический метод принятия решений на основе данных. Включает сравнение тестовой статистики с критическим значением или p-значением для определения, следует ли отвергнуть нулевую гипотезу.
Вероятность наблюдения результата столь же экстремального, как тестовая статистика, при условии, что нулевая гипотеза верна. Меньшие p-значения предоставляют более убедительные доказательства против нулевой гипотезы.
Значение между −1 и 1, измеряющее силу и направление линейной зависимости между двумя переменными. Значения, близкие к ±1, указывают на сильную линейную зависимость.
Разница между 75-м процентилем (Q3) и 25-м процентилем (Q1). IQR измеряет разброс центральных 50% данных и устойчив к выбросам.
Значение, ниже которого находится заданный процент наблюдений. Например, 90-й процентиль — это значение, ниже которого находятся 90% точек данных.