מהם ערכים חריגים?
ערכים חריגים הם נקודות נתונים השונות באופן משמעותי מתצפיות אחרות. הם יכולים לנבוע משגיאות מדידה, טעויות בהזנת נתונים, או שהם מייצגים מקרים חריגים באמת שראוי לחקור.
הנקודה הכתומה ב-(10, 50) היא ערך חריג
כלל 3-סיגמא
עבור נתונים בהתפלגות נורמלית, נקודות מעבר ל-3 סטיות תקן מהממוצע נחשבות לערכים חריגים. הן מתרחשות פחות מ-0.3% מהזמן במקרה.
חריג אם
x < μ - 3σ OR x > μ + 3σ
דוגמה
אם ציוני מבחן עם μ = 75 ו-σ = 10:
- גבול תחתון: 75 - 30 = 45
- גבול עליון: 75 + 30 = 105
- כל ציון מתחת ל-45 או מעל 105 הוא ערך חריג
שיטת ציון Z
חשבו את ציון ה-Z לכל נקודת נתונים. אם |z| > 3 (או לעיתים 2.5), מדובר בערך חריג.
ציון Z
z = (x - μ) / σ
אפשרויות סף
- |z| > 3: שמרני (תופס פחות ערכים חריגים)
- |z| > 2.5: מתון
- |z| > 2: ליברלי (תופס יותר ערכים חריגים)
שיטת IQR (חלופית)
שיטת הטווח הבין-רבעוני (IQR) חסינה יותר לערכים חריגים כי היא אינה משתמשת בממוצע או בסטיית תקן.
1
שלב 1
מצאו את Q1 (אחוזון 25) ו-Q3 (אחוזון 75)
2
שלב 2
חשבו IQR = Q3 - Q1
3
שלב 3
גדר תחתונה = Q1 - 1.5 × IQR
4
שלב 4
גדר עליונה = Q3 + 1.5 × IQR
5
שלב 5
נקודות מחוץ לגדרות הן ערכים חריגים
טיפול בערכים חריגים
אל תמחקו אוטומטית!
ערכים חריגים אינם תמיד שגיאות. לפני הסרתם, חקרו:
- האם מדובר בשגיאת הזנה או מדידה?
- האם זהו ערך קיצוני אמיתי?
- האם הוא מייצג מקרה קצה חשוב?
מתי להסיר
- שגיאות הזנת נתונים מאושרות
- תקלה בציוד מדידה
- מחוץ לטווח הערכים האפשרי
מתי לשמור
- מייצג שונות אמיתית
- חשוב לניתוח שלכם
- הסרה תטה את התוצאות