Що таке викиди?
Викиди — це точки даних, які суттєво відрізняються від інших спостережень. Вони можуть бути спричинені похибками вимірювання, помилками введення даних або можуть представляти справді незвичайні випадки, які варто дослідити.
Помаранчева точка в позиції (10, 50) є викидом
Правило 3-сигм
Для нормально розподілених даних точки за межами 3 стандартних відхилень від середнього вважаються викидами. Вони трапляються менш ніж у 0,3% випадків.
Викид, якщо
x < μ - 3σ OR x > μ + 3σ
Приклад
Якщо результати тестів мають μ = 75 та σ = 10:
- Нижня межа: 75 - 30 = 45
- Верхня межа: 75 + 30 = 105
- Будь-який бал нижче 45 або вище 105 є викидом
Метод Z-оцінки
Обчисліть Z-оцінку для кожної точки даних. Якщо |z| > 3 (або іноді 2,5), це викид.
Варіанти порогів
- |z| > 3: Консервативний (виявляє менше викидів)
- |z| > 2,5: Помірний
- |z| > 2: Ліберальний (виявляє більше викидів)
Метод IQR (альтернатива)
Метод міжквартильного розмаху (IQR) є більш робастним до викидів, оскільки не використовує середнє чи стандартне відхилення.
1
Крок 1
Знайдіть Q1 (25-й перцентиль) та Q3 (75-й перцентиль)
2
Крок 2
Обчисліть IQR = Q3 - Q1
3
Крок 3
Нижня межа = Q1 - 1,5 × IQR
4
Крок 4
Верхня межа = Q3 + 1,5 × IQR
5
Крок 5
Точки за межами — це викиди
Робота з викидами
Не видаляйте автоматично!
Викиди не завжди є помилками. Перед видаленням дослідіть:
- Це помилка введення даних чи вимірювання?
- Це справді екстремальне значення?
- Чи представляє воно важливий граничний випадок?
Коли видаляти
- Підтверджені помилки введення даних
- Несправність вимірювального обладнання
- Значення поза можливим діапазоном
Коли залишати
- Представляє реальну варіабельність
- Важливе для вашого аналізу
- Видалення спотворить результати