ค่าผิดปกติคืออะไร?
ค่าผิดปกติ คือจุดข้อมูลที่แตกต่างอย่างมีนัยสำคัญจากข้อสังเกตอื่นๆ อาจเกิดจากข้อผิดพลาดในการวัด ข้อผิดพลาดในการป้อนข้อมูล หรืออาจเป็นกรณีที่ผิดปกติอย่างแท้จริงที่ควรตรวจสอบ
จุดสีส้มที่ (10, 50) เป็นค่าผิดปกติ
กฎ 3-ซิกมา
สำหรับข้อมูลที่มีการแจกแจงปกติ จุดที่เกิน 3 ส่วนเบี่ยงเบนมาตรฐาน จากค่าเฉลี่ยถือเป็นค่าผิดปกติ เกิดขึ้นน้อยกว่า 0.3% ของเวลาโดยบังเอิญ
เป็นค่าผิดปกติถ้า
x < μ - 3σ OR x > μ + 3σ
ตัวอย่าง
ถ้าคะแนนสอบมี μ = 75 และ σ = 10:
- ขอบเขตล่าง: 75 - 30 = 45
- ขอบเขตบน: 75 + 30 = 105
- คะแนนใดก็ตามที่ต่ำกว่า 45 หรือสูงกว่า 105 เป็นค่าผิดปกติ
วิธีคะแนน Z
คำนวณคะแนน z สำหรับจุดข้อมูลแต่ละจุด ถ้า |z| > 3 (หรือบางครั้ง 2.5) ถือว่าเป็นค่าผิดปกติ
คะแนน Z
z = (x - μ) / σ
ตัวเลือกเกณฑ์
- |z| > 3: อนุรักษ์นิยม (จับค่าผิดปกติน้อยกว่า)
- |z| > 2.5: ปานกลาง
- |z| > 2: เสรีนิยม (จับค่าผิดปกติมากกว่า)
วิธี IQR (ทางเลือก)
วิธีพิสัยระหว่างควอร์ไทล์ (IQR) ทนทานต่อค่าผิดปกติมากกว่าเพราะไม่ใช้ค่าเฉลี่ยหรือส่วนเบี่ยงเบนมาตรฐาน
1
ขั้นตอนที่ 1
หา Q1 (เปอร์เซ็นไทล์ที่ 25) และ Q3 (เปอร์เซ็นไทล์ที่ 75)
2
ขั้นตอนที่ 2
คำนวณ IQR = Q3 - Q1
3
ขั้นตอนที่ 3
รั้วล่าง = Q1 - 1.5 × IQR
4
ขั้นตอนที่ 4
รั้วบน = Q3 + 1.5 × IQR
5
ขั้นตอนที่ 5
จุดที่อยู่นอกรั้วเป็นค่าผิดปกติ
การจัดการค่าผิดปกติ
อย่าลบอัตโนมัติ!
ค่าผิดปกติไม่ได้เป็นข้อผิดพลาดเสมอไป ก่อนลบออก ให้ตรวจสอบ:
- เป็นข้อผิดพลาดในการป้อนข้อมูลหรือการวัดหรือไม่?
- เป็นค่าสุดโต่งที่แท้จริงหรือไม่?
- มันเป็นกรณีขอบเขตที่สำคัญหรือไม่?
เมื่อควรลบ
- ยืนยันว่าเป็นข้อผิดพลาดในการป้อนข้อมูล
- อุปกรณ์วัดทำงานผิดปกติ
- อยู่นอกช่วงค่าที่เป็นไปได้
เมื่อควรเก็บ
- แสดงถึงความแปรผันที่แท้จริง
- สำคัญต่อการวิเคราะห์ของคุณ
- การลบจะทำให้ผลลัพธ์เอนเอียง