Σ
SDCalc
Trung cấpỨng dụng·9 min

Phát hiện Giá trị ngoại lai bằng Độ lệch chuẩn

Tìm hiểu cách nhận diện giá trị ngoại lai trong dữ liệu bằng độ lệch chuẩn. Nắm vững quy tắc 3-sigma, phương pháp IQR và hiểu khi nào nên loại bỏ giá trị ngoại lai.

Giá trị ngoại lai là gì?

Giá trị ngoại lai là các điểm dữ liệu khác biệt đáng kể so với các quan sát khác. Chúng có thể do lỗi đo lường, nhập liệu sai, hoặc có thể đại diện cho các trường hợp bất thường thực sự đáng được điều tra.

Điểm màu cam tại (10, 50) là một giá trị ngoại lai

Quy tắc 3-Sigma

Đối với dữ liệu phân phối chuẩn, các điểm vượt quá 3 độ lệch chuẩn so với trung bình được coi là giá trị ngoại lai. Chúng xảy ra ít hơn 0,3% thời gian do ngẫu nhiên.

Ngoại lai nếu

x < μ - 3σ OR x > μ + 3σ

Ví dụ

Nếu điểm thi có μ = 75 và σ = 10: - Giới hạn dưới: 75 - 30 = 45 - Giới hạn trên: 75 + 30 = 105 - Bất kỳ điểm nào dưới 45 hoặc trên 105 là giá trị ngoại lai

Phương pháp điểm Z

Tính điểm Z cho mỗi điểm dữ liệu. Nếu |z| > 3 (hoặc đôi khi 2,5), đó là giá trị ngoại lai.

Điểm Z

z = (x - μ) / σ

Các ngưỡng lựa chọn

- |z| > 3: Bảo thủ (phát hiện ít ngoại lai hơn) - |z| > 2,5: Trung bình - |z| > 2: Tự do (phát hiện nhiều ngoại lai hơn)

Phương pháp IQR (Phương án thay thế)

Phương pháp Khoảng tứ phân vị (IQR) bền vững hơn với giá trị ngoại lai vì nó không sử dụng trung bình hay độ lệch chuẩn.

1

Bước 1

Tìm Q1 (phân vị thứ 25) và Q3 (phân vị thứ 75)
2

Bước 2

Tính IQR = Q3 - Q1
3

Bước 3

Hàng rào dưới = Q1 - 1,5 × IQR
4

Bước 4

Hàng rào trên = Q3 + 1,5 × IQR
5

Bước 5

Các điểm ngoài hàng rào là giá trị ngoại lai

Xử lý giá trị ngoại lai

Đừng tự động xóa!

Giá trị ngoại lai không phải lúc nào cũng là lỗi. Trước khi loại bỏ, hãy điều tra: - Đó có phải lỗi nhập liệu hoặc đo lường không? - Đó có phải giá trị cực đoan thực sự không? - Nó có đại diện cho trường hợp biên quan trọng không?

Khi nên loại bỏ

- Xác nhận là lỗi nhập liệu - Thiết bị đo lường bị trục trặc - Nằm ngoài phạm vi giá trị có thể

Khi nên giữ lại

- Đại diện biến thiên thực - Quan trọng cho phân tích của bạn - Loại bỏ sẽ gây sai lệch kết quả