Что такое выбросы?
Выбросы — это точки данных, которые существенно отличаются от остальных наблюдений. Они могут быть вызваны ошибками измерения, ошибками ввода данных или представлять собой действительно необычные случаи, заслуживающие исследования.
Оранжевая точка в координатах (10, 50) является выбросом
Правило трёх сигм
Для данных с нормальным распределением точки, находящиеся дальше 3 стандартных отклонений от среднего, считаются выбросами. Они встречаются менее чем в 0,3% случаев.
Выброс, если
x < μ - 3σ OR x > μ + 3σ
Пример
Если результаты экзамена имеют μ = 75 и σ = 10:
- Нижняя граница: 75 - 30 = 45
- Верхняя граница: 75 + 30 = 105
- Любой балл ниже 45 или выше 105 является выбросом
Метод Z-оценок
Рассчитайте Z-оценку для каждой точки данных. Если |z| > 3 (или иногда 2,5), точка является выбросом.
Варианты порогов
- |z| > 3: Консервативный (выявляет меньше выбросов)
- |z| > 2,5: Умеренный
- |z| > 2: Либеральный (выявляет больше выбросов)
Метод IQR (альтернатива)
Метод межквартильного размаха (IQR) более устойчив к выбросам, так как не использует среднее и стандартное отклонение.
1
Шаг 1
Найдите Q1 (25-й процентиль) и Q3 (75-й процентиль)
2
Шаг 2
Вычислите IQR = Q3 - Q1
3
Шаг 3
Нижняя граница = Q1 - 1,5 × IQR
4
Шаг 4
Верхняя граница = Q3 + 1,5 × IQR
5
Шаг 5
Точки за пределами границ — выбросы
Обработка выбросов
Не удаляйте автоматически!
Выбросы — не всегда ошибки. Прежде чем удалять их, выясните:
- Это ошибка ввода или измерения?
- Это подлинное экстремальное значение?
- Оно представляет собой важный крайний случай?
Когда удалять
- Подтверждённые ошибки ввода данных
- Неисправность измерительного оборудования
- Значение за пределами возможного диапазона
Когда оставлять
- Отражает реальную вариабельность
- Важно для вашего анализа
- Удаление исказит результаты