Статистический глоссарий

Ключевые статистические термины и определения

general

Стандартное отклонение (σ / s)

Мера величины вариации или рассеивания в наборе значений. Является квадратным корнем из дисперсии и выражается в тех же единицах, что и данные.

Дисперсия (σ² / s²)

Среднее значение квадратов отклонений от среднего. Дисперсия количественно определяет степень рассеивания в наборе данных и является квадратом стандартного отклонения.

Среднее (μ / x̄)

Среднее арифметическое набора значений, вычисляемое путём суммирования всех значений и деления на их количество. Представляет центральную тенденцию данных.

Медиана

Среднее значение в отсортированном наборе данных. При чётном количестве значений медиана — это среднее двух центральных значений. Устойчива к выбросам.

Мода

Значение, которое встречается наиболее часто в наборе данных. Набор данных может иметь одну моду (унимодальный), несколько мод (мультимодальный) или не иметь моды вовсе.

Размах

Разница между наибольшим и наименьшим значениями в наборе данных. Хотя легко вычисляется, учитывает только два крайних значения и чувствителен к выбросам.

Генеральная совокупность

Полный набор всех объектов или наблюдений, представляющих интерес в исследовании. Параметры совокупности обычно обозначаются греческими буквами (μ, σ).

Выборка

Подмножество генеральной совокупности, отобранное для анализа. Выборочные статистики обычно обозначаются латинскими буквами (x̄, s) и используются для оценки параметров совокупности.

Поправка Бесселя

Использование n−1 вместо n в знаменателе при вычислении выборочной дисперсии. Эта поправка обеспечивает несмещённую оценку дисперсии генеральной совокупности по выборке.

Нормальное распределение

Симметричное колоколообразное распределение вероятностей, где среднее, медиана и мода равны. Многие природные явления приблизительно следуют нормальному распределению.

Эмпирическое правило (68-95-99,7)

Для нормально распределённых данных приблизительно 68% значений находятся в пределах ±1σ, 95% — в пределах ±2σ и 99,7% — в пределах ±3σ от среднего.

Z-оценка

Количество стандартных отклонений, на которое точка данных отличается от среднего, вычисляется как Z = (X − μ) / σ. Z-оценки позволяют сравнивать значения из различных распределений.

Стандартная ошибка (SE)

Стандартное отклонение выборочного распределения статистики, чаще всего среднего. SE = σ/√n, уменьшается с увеличением объёма выборки.

Доверительный интервал

Диапазон значений, который с заданным уровнем доверия (например, 95%) вероятно содержит истинный параметр совокупности. Более широкие интервалы указывают на меньшую точность.

Выброс

Точка данных, значительно отличающаяся от других наблюдений. Распространённые методы обнаружения включают значения за пределами ±2 или ±3 стандартных отклонений от среднего.

Коэффициент вариации (CV)

Отношение стандартного отклонения к среднему, выраженное в процентах (CV = σ/μ × 100%). Позволяет сравнивать изменчивость между наборами данных с разными масштабами.

Асимметрия

Мера асимметрии распределения вероятностей. Положительная асимметрия означает, что хвост распространяется вправо; отрицательная — что он распространяется влево.

Эксцесс

Мера тяжести хвостов распределения вероятностей. Высокий эксцесс указывает на тяжёлые хвосты и острый пик; низкий эксцесс указывает на лёгкие хвосты и плоский пик.

Степени свободы (df)

Количество независимых значений, которые могут изменяться в статистическом расчёте. Для выборочного стандартного отклонения df = n − 1, что отражает поправку Бесселя.

Центральная предельная теорема

Утверждает, что выборочное распределение среднего приближается к нормальному распределению по мере увеличения объёма выборки, независимо от распределения генеральной совокупности.

Проверка гипотез

Статистический метод принятия решений на основе данных. Включает сравнение тестовой статистики с критическим значением или p-значением для определения, следует ли отвергнуть нулевую гипотезу.

P-значение

Вероятность наблюдения результата столь же экстремального, как тестовая статистика, при условии, что нулевая гипотеза верна. Меньшие p-значения предоставляют более убедительные доказательства против нулевой гипотезы.

Коэффициент корреляции (r)

Значение между −1 и 1, измеряющее силу и направление линейной зависимости между двумя переменными. Значения, близкие к ±1, указывают на сильную линейную зависимость.

Межквартильный размах (IQR)

Разница между 75-м процентилем (Q3) и 25-м процентилем (Q1). IQR измеряет разброс центральных 50% данных и устойчив к выбросам.

Процентиль

Значение, ниже которого находится заданный процент наблюдений. Например, 90-й процентиль — это значение, ниже которого находятся 90% точек данных.