Σ
SDCalc
ระดับกลางการประยุกต์ใช้·9 min

การตรวจจับค่าผิดปกติด้วยส่วนเบี่ยงเบนมาตรฐาน

เรียนรู้วิธีระบุค่าผิดปกติในข้อมูลของคุณโดยใช้ส่วนเบี่ยงเบนมาตรฐาน เชี่ยวชาญกฎ 3-ซิกมา วิธี IQR และทำความเข้าใจว่าเมื่อไหร่ควรลบค่าผิดปกติ

ค่าผิดปกติคืออะไร?

ค่าผิดปกติ คือจุดข้อมูลที่แตกต่างอย่างมีนัยสำคัญจากข้อสังเกตอื่นๆ อาจเกิดจากข้อผิดพลาดในการวัด ข้อผิดพลาดในการป้อนข้อมูล หรืออาจเป็นกรณีที่ผิดปกติอย่างแท้จริงที่ควรตรวจสอบ

จุดสีส้มที่ (10, 50) เป็นค่าผิดปกติ

กฎ 3-ซิกมา

สำหรับข้อมูลที่มีการแจกแจงปกติ จุดที่เกิน 3 ส่วนเบี่ยงเบนมาตรฐาน จากค่าเฉลี่ยถือเป็นค่าผิดปกติ เกิดขึ้นน้อยกว่า 0.3% ของเวลาโดยบังเอิญ

เป็นค่าผิดปกติถ้า

x < μ - 3σ OR x > μ + 3σ

ตัวอย่าง

ถ้าคะแนนสอบมี μ = 75 และ σ = 10: - ขอบเขตล่าง: 75 - 30 = 45 - ขอบเขตบน: 75 + 30 = 105 - คะแนนใดก็ตามที่ต่ำกว่า 45 หรือสูงกว่า 105 เป็นค่าผิดปกติ

วิธีคะแนน Z

คำนวณคะแนน z สำหรับจุดข้อมูลแต่ละจุด ถ้า |z| > 3 (หรือบางครั้ง 2.5) ถือว่าเป็นค่าผิดปกติ

คะแนน Z

z = (x - μ) / σ

ตัวเลือกเกณฑ์

- |z| > 3: อนุรักษ์นิยม (จับค่าผิดปกติน้อยกว่า) - |z| > 2.5: ปานกลาง - |z| > 2: เสรีนิยม (จับค่าผิดปกติมากกว่า)

วิธี IQR (ทางเลือก)

วิธีพิสัยระหว่างควอร์ไทล์ (IQR) ทนทานต่อค่าผิดปกติมากกว่าเพราะไม่ใช้ค่าเฉลี่ยหรือส่วนเบี่ยงเบนมาตรฐาน

1

ขั้นตอนที่ 1

หา Q1 (เปอร์เซ็นไทล์ที่ 25) และ Q3 (เปอร์เซ็นไทล์ที่ 75)
2

ขั้นตอนที่ 2

คำนวณ IQR = Q3 - Q1
3

ขั้นตอนที่ 3

รั้วล่าง = Q1 - 1.5 × IQR
4

ขั้นตอนที่ 4

รั้วบน = Q3 + 1.5 × IQR
5

ขั้นตอนที่ 5

จุดที่อยู่นอกรั้วเป็นค่าผิดปกติ

การจัดการค่าผิดปกติ

อย่าลบอัตโนมัติ!

ค่าผิดปกติไม่ได้เป็นข้อผิดพลาดเสมอไป ก่อนลบออก ให้ตรวจสอบ: - เป็นข้อผิดพลาดในการป้อนข้อมูลหรือการวัดหรือไม่? - เป็นค่าสุดโต่งที่แท้จริงหรือไม่? - มันเป็นกรณีขอบเขตที่สำคัญหรือไม่?

เมื่อควรลบ

- ยืนยันว่าเป็นข้อผิดพลาดในการป้อนข้อมูล - อุปกรณ์วัดทำงานผิดปกติ - อยู่นอกช่วงค่าที่เป็นไปได้

เมื่อควรเก็บ

- แสดงถึงความแปรผันที่แท้จริง - สำคัญต่อการวิเคราะห์ของคุณ - การลบจะทำให้ผลลัพธ์เอนเอียง