Σ
SDCalc
СереднійЗастосування·9 min

Виявлення викидів за допомогою стандартного відхилення

Дізнайтеся, як виявляти викиди у ваших даних за допомогою стандартного відхилення. Опануйте правило 3-сигм, метод IQR та зрозумійте, коли слід видаляти викиди.

Що таке викиди?

Викиди — це точки даних, які суттєво відрізняються від інших спостережень. Вони можуть бути спричинені похибками вимірювання, помилками введення даних або можуть представляти справді незвичайні випадки, які варто дослідити.

Помаранчева точка в позиції (10, 50) є викидом

Правило 3-сигм

Для нормально розподілених даних точки за межами 3 стандартних відхилень від середнього вважаються викидами. Вони трапляються менш ніж у 0,3% випадків.

Викид, якщо

x < μ - 3σ OR x > μ + 3σ

Приклад

Якщо результати тестів мають μ = 75 та σ = 10: - Нижня межа: 75 - 30 = 45 - Верхня межа: 75 + 30 = 105 - Будь-який бал нижче 45 або вище 105 є викидом

Метод Z-оцінки

Обчисліть Z-оцінку для кожної точки даних. Якщо |z| > 3 (або іноді 2,5), це викид.

Z-оцінка

z = (x - μ) / σ

Варіанти порогів

- |z| > 3: Консервативний (виявляє менше викидів) - |z| > 2,5: Помірний - |z| > 2: Ліберальний (виявляє більше викидів)

Метод IQR (альтернатива)

Метод міжквартильного розмаху (IQR) є більш робастним до викидів, оскільки не використовує середнє чи стандартне відхилення.

1

Крок 1

Знайдіть Q1 (25-й перцентиль) та Q3 (75-й перцентиль)
2

Крок 2

Обчисліть IQR = Q3 - Q1
3

Крок 3

Нижня межа = Q1 - 1,5 × IQR
4

Крок 4

Верхня межа = Q3 + 1,5 × IQR
5

Крок 5

Точки за межами — це викиди

Робота з викидами

Не видаляйте автоматично!

Викиди не завжди є помилками. Перед видаленням дослідіть: - Це помилка введення даних чи вимірювання? - Це справді екстремальне значення? - Чи представляє воно важливий граничний випадок?

Коли видаляти

- Підтверджені помилки введення даних - Несправність вимірювального обладнання - Значення поза можливим діапазоном

Коли залишати

- Представляє реальну варіабельність - Важливе для вашого аналізу - Видалення спотворить результати