Статистичний глосарій

Ключові статистичні терміни та визначення

general

Стандартне відхилення (σ / s)

Міра кількості варіації або розкиду у наборі значень. Це квадратний корінь дисперсії, який виражається в тих самих одиницях, що й дані.

Дисперсія (σ² / s²)

Середнє квадратів відхилень від середнього. Дисперсія кількісно визначає ступінь розкиду в наборі даних і є квадратом стандартного відхилення.

Середнє (μ / x̄)

Середнє арифметичне набору значень, обчислене шляхом додавання всіх значень і ділення на їх кількість. Воно представляє центральну тенденцію даних.

Медіана

Середнє значення у відсортованому наборі даних. Якщо кількість значень парна, медіана — це середнє двох центральних значень. Вона стійка до викидів.

Мода

Значення, яке найчастіше зустрічається у наборі даних. Набір даних може мати одну моду (унімодальний), кілька мод (мультимодальний) або не мати моди взагалі.

Розмах

Різниця між найбільшим і найменшим значеннями у наборі даних. Хоча його просто обчислити, він враховує лише два крайні значення і чутливий до викидів.

Генеральна сукупність

Повний набір усіх індивідів або спостережень, які цікавлять у дослідженні. Параметри генеральної сукупності зазвичай позначаються грецькими літерами (μ, σ).

Вибірка

Підмножина генеральної сукупності, обрана для аналізу. Вибіркові статистики зазвичай позначаються латинськими літерами (x̄, s) і використовуються для оцінки параметрів генеральної сукупності.

Поправка Бесселя

Використання n−1 замість n у знаменнику при обчисленні вибіркової дисперсії. Ця поправка дає незміщену оцінку дисперсії генеральної сукупності за вибіркою.

Нормальний розподіл

Симетричний, дзвоноподібний розподіл ймовірностей, де середнє, медіана та мода рівні. Багато природних явищ наближено слідують нормальному розподілу.

Емпіричне правило (68-95-99,7)

Для нормально розподілених даних приблизно 68% значень потрапляє в межі ±1σ, 95% — в межі ±2σ і 99,7% — в межі ±3σ від середнього.

Z-оцінка

Кількість стандартних відхилень, на які точка даних віддалена від середнього, обчислюється як Z = (X − μ) / σ. Z-оцінки дозволяють порівнювати значення з різних розподілів.

Стандартна похибка (SE)

Стандартне відхилення вибіркового розподілу статистики, найчастіше середнього. SE = σ/√n, зменшується зі збільшенням розміру вибірки.

Довірчий інтервал

Діапазон значень, який з певним рівнем довіри (наприклад, 95%) ймовірно містить справжній параметр генеральної сукупності. Ширші інтервали вказують на меншу точність.

Викид

Точка даних, яка суттєво відрізняється від інших спостережень. Поширені методи виявлення включають значення за межами ±2 або ±3 стандартних відхилень від середнього.

Коефіцієнт варіації (CV)

Відношення стандартного відхилення до середнього, виражене у відсотках (CV = σ/μ × 100%). Дозволяє порівнювати мінливість між наборами даних з різними шкалами.

Асиметрія

Міра асиметрії розподілу ймовірностей. Позитивна асиметрія означає, що хвіст тягнеться вправо; негативна — що він тягнеться вліво.

Ексцес

Міра важкості хвостів розподілу ймовірностей. Високий ексцес вказує на важкі хвости та гострий пік; низький ексцес — на легкі хвости та плаский пік.

Ступені свободи (df)

Кількість незалежних значень, які можуть змінюватися у статистичному обчисленні. Для вибіркового стандартного відхилення df = n − 1, що відображає поправку Бесселя.

Центральна гранична теорема

Стверджує, що вибірковий розподіл вибіркового середнього наближається до нормального розподілу зі збільшенням розміру вибірки, незалежно від розподілу генеральної сукупності.

Перевірка гіпотез

Статистичний метод прийняття рішень на основі даних. Включає порівняння тестової статистики з критичним значенням або p-значенням для визначення, чи слід відхилити нульову гіпотезу.

P-значення

Ймовірність спостереження результату, настільки ж екстремального як тестова статистика, за умови, що нульова гіпотеза вірна. Менші p-значення надають сильніші докази проти нульової гіпотези.

Коефіцієнт кореляції (r)

Значення від −1 до 1, яке вимірює силу та напрямок лінійного зв'язку між двома змінними. Значення, близькі до ±1, вказують на сильний лінійний зв'язок.

Міжквартильний розмах (IQR)

Різниця між 75-м перцентилем (Q3) і 25-м перцентилем (Q1). IQR вимірює розкид середніх 50% даних і стійкий до викидів.

Перцентиль

Значення, нижче якого потрапляє заданий відсоток спостережень. Наприклад, 90-й перцентиль — це значення, нижче якого знаходиться 90% точок даних.