Два способи вимірювання розкиду
Як розмах, так і стандартне відхилення вимірюють ступінь розкиду даних, але вони фіксують принципово різні аспекти дисперсії. Розуміння того, коли використовувати кожну з цих мір, є ключовим для коректного аналізу даних.
Розмах повідомляє про крайнощі — наскільки далеко одне від одного знаходяться найбільше та найменше значення. Стандартне відхилення повідомляє про типовий розкид навколо середнього. Обидві міри корисні, але для різних цілей.
Коротка довідка
Використовуйте розмах, коли вам важливі крайні значення (межі контролю якості, перепад температур). Використовуйте стандартне відхилення, коли вам важлива типова варіабельність та потрібна статистична строгість.
Визначення та формули
Розмах
Розмах = Максимум - Мінімум
Найпростіша міра розкиду. Враховує лише два значення, незалежно від обсягу набору даних.
Стандартне відхилення
s = √[Σ(xᵢ - x̄)² / (n-1)]
Використовує кожну точку даних для вимірювання середньої відстані від середнього.
Пряме порівняння
Переваги та недоліки розмаху
Переваги:
- Надзвичайно простий для обчислення — достатньо відняти
- Легкий для розуміння та комунікації
- Безпосередньо показує діапазон даних
- Корисний для швидких перевірок якості
Недоліки:
- Ігнорує всі серединні значення
- Надзвичайно чутливий до викидів
- Очікувано зростає зі збільшенням обсягу вибірки
- Статистично неефективний
Переваги та недоліки СВ
Переваги:
- Використовує всі точки даних
- Статистично ефективний та стійкий
- Стабільний при збільшенні обсягу вибірки
- Основа для поглибленої статистики
Недоліки:
- Складніший для ручного обчислення
- Менш інтуїтивний для нестатистиків
- Може приховувати важливі екстремальні значення
- Все ще чутливий до викидів (замість нього використовуйте MAD)
Коли використовувати кожну міру
Використовуйте розмах, коли:
- Потрібна швидка, приблизна оцінка розкиду
- Крайні значення є найважливішими (наприклад, діапазон температур для проєктування HVAC)
- Дані точно чисті, без викидів
- Комунікація з аудиторією, незнайомою зі статистикою
- Обсяг вибірки малий та фіксований (однаковий для всіх порівнянь)
Використовуйте стандартне відхилення, коли:
- Проводите статистичний аналіз або перевірку гіпотез
- Порівнюєте варіабельність між різними обсягами вибірок
- Обчислюєте довірчі інтервали або p-значення
- Оцінюєте типову варіацію, а не крайнощі
- Дані можуть містити викиди, які не мають домінувати над мірою
Практичні приклади
Приклад: добова температура
Дані: 72°F, 75°F, 74°F, 73°F, 76°F, 71°F, 74°F
Розмах: 76 - 71 = 5°F (коливання температури)
СВ: 1,72°F (типова добова варіація)
Обидві міри тут корисні — розмах для потужності HVAC, СВ для сталості комфорту.
Приклад: результати тестів із викидом
Дані: 85, 88, 87, 86, 89, 42 (один студент не готувався)
Розмах: 89 - 42 = 47 балів (визначається викидом!)
СВ: 17,4 бала (все ще зазнає впливу, але менше)
Розмах тут вводить в оману. Розгляньте використання СВ або видалення викиду.
Поглиблені аспекти
Зв’язок між розмахом та СВ: для нормально розподілених даних Розмах ≈ 4–6 × СВ для типових обсягів вибірок. Це дозволяє приблизно перетворювати одне в інше.
Міжквартильний розмах (IQR): компроміс, що використовує Q3 - Q1 замість max - min. Він робастніший за розмах, але простіший за СВ.
Найкраща практика
За можливості повідомляйте обидві міри. “Діапазон температур склав 15°F (СВ = 4,2°F)” дає читачам повну інформацію як про крайнощі, так і про типову варіацію.