Σ
SDCalc
בינונייםConcepts·12 min

סטטיסטיקה חסינה: MAD, IQR ושיטות עמידות בפני חריגים

מדריך מקיף לסטטיסטיקה חסינה כולל סטייה מוחלטת חציונית (MAD) וטווח בין-רבעוני (IQR). למדו מתי להשתמש במדדי פיזור עמידים בפני חריגים עם דוגמאות וקוד Python.

למה סטטיסטיקה חסינה?

סטיית תקן היא מדד פיזור רב עוצמה, אך יש לה חולשה קריטית: רגישות קיצונית לחריגים. ערך קיצוני בודד יכול לנפח דרמטית את סט“ת ולתת תמונה מטעה של השתנות אופיינית.

סטטיסטיקה חסינה מספקת מדדי פיזור שעומדים בפני השפעת חריגים, מה שהופך אותם לחיוניים לנתוני עולם אמיתי שבהם שגיאות מדידה, טעויות הזנת נתונים או מקרים קיצוניים אמיתיים שכיחים.

דוגמה: אפקט החריג

נתונים: 10, 12, 11, 13, 12, 11, 100 (חריג אחד) סטיית תקן: 32.4 (נשלטת על ידי החריג) MAD: 1.0 (מתעלמת מהחריג) IQR: 1.5 (מתעלם מהחריג)

נקודת שבירה

“נקודת השבירה” של סטטיסטי היא שיעור הנתונים שיכולים להיות קיצוניים לפני שהסטטיסטי הופך לחסר משמעות. לסט“ת נקודת שבירה של 0% (חריג אחד יכול להרוס אותה). ל-MAD ול-IQR נקודות שבירה של 50% — חצי מהנתונים יכולים להיות חריגים והם עדיין עובדים.

סטייה מוחלטת חציונית (MAD)

MAD הוא מדד הפיזור החסין ביותר. הוא מחשב את החציון של הסטיות המוחלטות מהחציון:

MAD Formula

MAD = median(|xᵢ - median(x)|)
1

מציאת החציון

חשבו את החציון של מערך הנתונים.
2

חישוב סטיות

חסרו את החציון מכל ערך וקחו ערכים מוחלטים.
3

מציאת MAD

חשבו את החציון של סטיות מוחלטות אלה.

שינוי קנה מידה של MAD לאומדן σ: לנתונים מתפלגים נורמלית, MAD ≈ 0.6745 × σ. כדי לאמוד סט“ת מ-MAD, הכפילו ב-1.4826:

SD Estimate from MAD

σ̂ = 1.4826 × MAD

למה 1.4826?

מקדם שינוי קנה מידה זה נובע מהקשר בין MAD וסט“ת להתפלגויות נורמליות. הוא מבטיח שה-MAD המוקנה הוא אומדן חסר הטיה של סטיית התקן האמיתית כאשר הנתונים נורמליים.

טווח בין-רבעוני (IQR)

IQR מודד את פיזור 50% האמצעיים של הנתונים — הטווח בין האחוזון ה-25 לאחוזון ה-75:

IQR Formula

IQR = Q3 - Q1 = 75th percentile - 25th percentile

IQR נמצא בשימוש נרחב כי הוא פשוט להבנה, קל להמחשה בתרשימי קופסה, ומהווה את הבסיס לכלל “1.5×IQR” הנפוץ לזיהוי חריגים.

שינוי קנה מידה של IQR לאומדן σ: לנתונים נורמליים, IQR ≈ 1.35 × σ. כדי לאמוד סט“ת מ-IQR:

SD Estimate from IQR

σ̂ = IQR / 1.35 ≈ 0.7413 × IQR

השוואת מדדים חסינים

סטיית תקן

משתמשת בכל נקודות הנתונים · היעילה ביותר לנתונים נורמליים · רגישה מאוד לחריגים · נקודת שבירה: 0%

MAD

המדד החסין ביותר · משתמשת בחציון (לא בממוצע) · חסינה מפני כל חריג · נקודת שבירה: 50%

IQR

קל להבנה · משמש בתרשימי קופסה · מתעלם מ-50% הקיצוניים · נקודת שבירה: 25%

מתי להשתמש בסטטיסטיקה חסינה

  • ניתוח חקרני: כשאינכם יודעים אם קיימים חריגים, התחילו עם מדדים חסינים
  • בעיות איכות נתונים: כשהנתונים עלולים לכלול שגיאות או בעיות מדידה
  • התפלגויות בעלות זנבות כבדים: כשערכים קיצוניים צפויים (תשואות פיננסיות, תביעות ביטוח)
  • מדגמים קטנים: כשלחריגים השפעה גדולה יתר בשל מיעוט תצפיות
  • זיהוי חריגים: שימוש בסט“ת לזיהוי חריגים הוא מעגלי; השתמשו ב-IQR או MAD במקום

דוגמאות מימוש

Python
import numpy as np
from scipy import stats

def mad(data):
    """Median Absolute Deviation"""
    median = np.median(data)
    return np.median(np.abs(data - median))

def scaled_mad(data):
    """MAD scaled to estimate SD (for normal data)"""
    return 1.4826 * mad(data)

def iqr(data):
    """Interquartile Range"""
    return np.percentile(data, 75) - np.percentile(data, 25)

# Compare on data with outlier
data = [10, 12, 11, 13, 12, 11, 100]
print(f"SD: {np.std(data, ddof=1):.2f}")
print(f"MAD: {mad(data):.2f}")
print(f"Scaled MAD: {scaled_mad(data):.2f}")
print(f"IQR: {iqr(data):.2f}")