Що таке викиди?
Викиди — це точки даних, які суттєво відрізняються від інших спостережень. Вони можуть бути спричинені похибками вимірювання, помилками введення даних або можуть представляти справді незвичайні випадки, які варто дослідити.
Помаранчева точка в позиції (10, 50) є викидом
Правило 3-сигм
Для нормально розподілених даних точки за межами 3 стандартних відхилень від середнього вважаються викидами. Вони трапляються менш ніж у 0,3% випадків.
Викид, якщо
Приклад
Метод Z-оцінки
Обчисліть Z-оцінку для кожної точки даних. Якщо |z| > 3 (або іноді 2,5), це викид.
Z-оцінка
Варіанти порогів
Метод IQR (альтернатива)
Метод міжквартильного розмаху (IQR) є більш робастним до викидів, оскільки не використовує середнє чи стандартне відхилення.
Крок 1
Крок 2
Крок 3
Крок 4
Крок 5
Робота з викидами
Не видаляйте автоматично!