Σ
SDCalc
मध्यवर्तीअवधारणाएँ·12 min

मज़बूत सांख्यिकी: MAD, IQR और बहिर्वक्र-प्रतिरोधी विधियाँ

माध्यिका पूर्ण विचलन (MAD) और अंतर-चतुर्थक परिसर (IQR) सहित मज़बूत सांख्यिकी की संपूर्ण गाइड। उदाहरणों और Python कोड के साथ बहिर्वक्र-प्रतिरोधी प्रसार माप कब उपयोग करें सीखें।

मज़बूत सांख्यिकी क्यों?

मानक विचलन प्रसार का एक शक्तिशाली माप है, लेकिन इसमें एक महत्वपूर्ण कमज़ोरी है: बहिर्वक्र मानों के प्रति अत्यधिक संवेदनशीलता। एक अकेला चरम मान SD को नाटकीय रूप से बढ़ा सकता है, जो विशिष्ट विचरण की भ्रामक तस्वीर देता है।

मज़बूत सांख्यिकी प्रसार के ऐसे माप प्रदान करती हैं जो बहिर्वक्र मानों के प्रभाव का प्रतिरोध करते हैं, जो उन्हें वास्तविक डेटा के लिए आवश्यक बनाता है जहाँ मापन त्रुटियाँ, डेटा प्रविष्टि गलतियाँ, या वास्तविक चरम मामले सामान्य हैं।

उदाहरण: बहिर्वक्र मान प्रभाव

डेटा: 10, 12, 11, 13, 12, 11, 100 (एक बहिर्वक्र मान) मानक विचलन: 32.4 (बहिर्वक्र मान द्वारा हावी) MAD: 1.0 (बहिर्वक्र मान की अनदेखी करता है) IQR: 1.5 (बहिर्वक्र मान की अनदेखी करता है)

टूटन बिंदु

एक सांख्यिकी का “टूटन बिंदु” डेटा का वह अनुपात है जो चरम हो सकता है इससे पहले कि सांख्यिकी अर्थहीन हो जाए। SD का टूटन बिंदु 0% है (एक बहिर्वक्र मान इसे नष्ट कर सकता है)। MAD और IQR के टूटन बिंदु 50% हैं—आपका आधा डेटा बहिर्वक्र मान हो सकता है और वे फिर भी काम करते हैं।

माध्यिका पूर्ण विचलन (MAD)

MAD प्रसार का सबसे मज़बूत माप है। यह माध्यिका से निरपेक्ष विचलनों की माध्यिका की गणना करता है:

MAD सूत्र

MAD = median(|xᵢ - median(x)|)
1

माध्यिका ज्ञात करें

अपने डेटासेट की माध्यिका की गणना करें।
2

विचलनों की गणना करें

प्रत्येक मान से माध्यिका घटाएँ और निरपेक्ष मान लें।
3

MAD ज्ञात करें

इन निरपेक्ष विचलनों की माध्यिका की गणना करें।

σ अनुमान के लिए MAD का मापक: सामान्य रूप से वितरित डेटा के लिए, MAD ≈ 0.6745 × σ। MAD से SD अनुमान लगाने के लिए, 1.4826 से गुणा करें:

MAD से SD अनुमान

σ̂ = 1.4826 × MAD

1.4826 क्यों?

यह मापक कारक सामान्य वितरणों के लिए MAD और SD के बीच संबंध से आता है। यह सुनिश्चित करता है कि मापित MAD सामान्य डेटा होने पर वास्तविक मानक विचलन का निष्पक्ष अनुमानक है।

अंतर-चतुर्थक परिसर (IQR)

IQR मध्य 50% डेटा के प्रसार को मापता है—25वें और 75वें शतमक के बीच का परिसर:

IQR सूत्र

IQR = Q3 - Q1 = 75वाँ शतमक - 25वाँ शतमक

IQR व्यापक रूप से उपयोग किया जाता है क्योंकि यह समझने में सरल है, बॉक्स प्लॉट में दृश्यावलोकन करना आसान है, और बहिर्वक्र मान पहचान के लिए सामान्य “1.5×IQR नियम” का आधार बनाता है।

σ अनुमान के लिए IQR का मापन: सामान्य डेटा के लिए, IQR ≈ 1.35 × σ। IQR से SD अनुमान लगाने के लिए:

IQR से SD अनुमान

σ̂ = IQR / 1.35 ≈ 0.7413 × IQR

मज़बूत मापों की तुलना

मानक विचलन

सभी डेटा बिंदुओं का उपयोग करता है · सामान्य डेटा के लिए सबसे कुशल · बहिर्वक्र मानों के प्रति बहुत संवेदनशील · टूटन बिंदु: 0%

MAD

सबसे मज़बूत माप · माध्यिका (माध्य नहीं) का उपयोग करता है · किसी भी बहिर्वक्र मान से प्रतिरक्षित · टूटन बिंदु: 50%

IQR

समझने में आसान · बॉक्स प्लॉट में उपयोग · चरम 50% की अनदेखी करता है · टूटन बिंदु: 25%

मज़बूत सांख्यिकी कब उपयोग करें

  • अन्वेषणात्मक विश्लेषण: जब आप नहीं जानते कि बहिर्वक्र मान मौजूद हैं या नहीं, मज़बूत मापों से शुरू करें
  • डेटा गुणवत्ता समस्याएँ: जब डेटा में त्रुटियाँ या मापन समस्याएँ हो सकती हैं
  • भारी-पूँछ वितरण: जब चरम मान अपेक्षित हों (वित्तीय प्रतिफल, बीमा दावे)
  • छोटे प्रतिदर्श: जब कम प्रेक्षणों के कारण बहिर्वक्र मानों का बड़ा प्रभाव हो
  • बहिर्वक्र मान पहचान: बहिर्वक्र मानों का पता लगाने के लिए SD का उपयोग करना वृत्तीय है; इसके बजाय IQR या MAD का उपयोग करें

कार्यान्वयन उदाहरण

Python
import numpy as np
from scipy import stats

def mad(data):
    """Median Absolute Deviation"""
    median = np.median(data)
    return np.median(np.abs(data - median))

def scaled_mad(data):
    """MAD scaled to estimate SD (for normal data)"""
    return 1.4826 * mad(data)

def iqr(data):
    """Interquartile Range"""
    return np.percentile(data, 75) - np.percentile(data, 25)

# Compare on data with outlier
data = [10, 12, 11, 13, 12, 11, 100]
print(f"SD: {np.std(data, ddof=1):.2f}")
print(f"MAD: {mad(data):.2f}")
print(f"Scaled MAD: {scaled_mad(data):.2f}")
print(f"IQR: {iqr(data):.2f}")