प्रसार मापने के दो तरीके
परिसर और मानक विचलन दोनों मापते हैं कि डेटा कितना फैला हुआ है, लेकिन वे प्रसार के मौलिक रूप से अलग पहलुओं को पकड़ते हैं। प्रत्येक का कब उपयोग करना है, यह समझना उचित डेटा विश्लेषण के लिए आवश्यक है।
परिसर आपको चरम सीमाओं के बारे में बताता है—सबसे ऊँचे और सबसे नीचे के मान कितने दूर हैं। मानक विचलन आपको औसत के आसपास विशिष्ट प्रसार के बारे में बताता है। दोनों उपयोगी हैं, लेकिन अलग-अलग उद्देश्यों के लिए।
त्वरित निर्णय मार्गदर्शिका
परिसर का उपयोग करें जब आप चरम सीमाओं (गुणवत्ता नियंत्रण सीमाएँ, तापमान विचरण) की परवाह करते हों। मानक विचलन का उपयोग करें जब आप विशिष्ट परिवर्तनशीलता की परवाह करते हों और सांख्यिकीय कठोरता चाहते हों।
परिभाषाएँ और सूत्र
परिसर
परिसर = अधिकतम - न्यूनतम
प्रसार का सबसे सरल माप। डेटासेट के आकार की परवाह किए बिना केवल दो मानों पर विचार करता है।
मानक विचलन
s = √[Σ(xᵢ - x̄)² / (n-1)]
माध्य से औसत दूरी मापने के लिए प्रत्येक डेटा बिंदु का उपयोग करता है।
आमने-सामने तुलना
परिसर के लाभ और हानियाँ
लाभ:
- गणना करना अत्यंत सरल—बस घटाएँ
- समझने और संवाद करने में आसान
- सीधे डेटा का विस्तार दिखाता है
- त्वरित गुणवत्ता जाँच के लिए उपयोगी
हानियाँ:
- सभी मध्य मानों की अनदेखी करता है
- बहिर्वक्र मानों के प्रति अत्यंत संवेदनशील
- प्रतिदर्श आकार के साथ बढ़ने की अपेक्षा
- सांख्यिकीय रूप से अक्षम
SD के लाभ और हानियाँ
लाभ:
- सभी डेटा बिंदुओं का उपयोग करता है
- सांख्यिकीय रूप से कुशल और मज़बूत
- प्रतिदर्श आकार बढ़ने पर स्थिर
- उन्नत सांख्यिकी की नींव
हानियाँ:
- हाथ से गणना करना अधिक जटिल
- गैर-सांख्यिकीविदों के लिए कम सहज
- महत्वपूर्ण चरम मानों को छिपा सकता है
- बहिर्वक्र मानों से अभी भी प्रभावित (इसके बजाय MAD उपयोग करें)
प्रत्येक का कब उपयोग करें
परिसर का उपयोग करें जब:
- आपको प्रसार का त्वरित, मोटा अनुमान चाहिए
- चरम मान ही मायने रखते हैं (जैसे HVAC डिज़ाइन के लिए तापमान परिसर)
- डेटा बिना बहिर्वक्र मानों के स्वच्छ है
- सांख्यिकी से अपरिचित दर्शकों के साथ संवाद करना हो
- प्रतिदर्श आकार छोटा और निश्चित हो (सभी तुलनाओं के लिए समान आकार)
मानक विचलन का उपयोग करें जब:
- सांख्यिकीय विश्लेषण या परिकल्पना परीक्षण कर रहे हों
- विभिन्न प्रतिदर्श आकारों में परिवर्तनशीलता की तुलना करना हो
- विश्वास अंतराल या p-मान की गणना करना हो
- चरम सीमाओं के बजाय विशिष्ट विचरण का आकलन करना हो
- डेटा में बहिर्वक्र मान हो सकते हैं जो माप पर हावी नहीं होने चाहिए
व्यावहारिक उदाहरण
उदाहरण: दैनिक तापमान
डेटा: 72°F, 75°F, 74°F, 73°F, 76°F, 71°F, 74°F
परिसर: 76 - 71 = 5°F (तापमान का उतार-चढ़ाव)
SD: 1.72°F (विशिष्ट दिन-प्रतिदिन विचरण)
दोनों यहाँ उपयोगी हैं—HVAC क्षमता के लिए परिसर, आराम सुसंगतता के लिए SD।
उदाहरण: बहिर्वक्र मान के साथ परीक्षा अंक
डेटा: 85, 88, 87, 86, 89, 42 (एक छात्र ने पढ़ाई नहीं की)
परिसर: 89 - 42 = 47 अंक (बहिर्वक्र मान द्वारा हावी!)
SD: 17.4 अंक (अभी भी प्रभावित लेकिन कम)
परिसर यहाँ भ्रामक है। SD का उपयोग करने या बहिर्वक्र मान हटाने पर विचार करें।
उन्नत विचार
परिसर और SD के बीच संबंध: सामान्य रूप से वितरित डेटा के लिए, सामान्य प्रतिदर्श आकारों के लिए परिसर ≈ 4-6 × SD। यह उनके बीच मोटे रूपांतरण की अनुमति देता है।
अंतर-चतुर्थक परिसर (IQR): एक समझौता जो max - min के बजाय Q3 - Q1 का उपयोग करता है। यह परिसर से अधिक मज़बूत है जबकि SD से सरल है।
सर्वोत्तम अभ्यास
जब उचित हो दोनों मापों की रिपोर्ट करें। “तापमान परिसर 15°F था (SD = 4.2°F)” पाठकों को चरम सीमाओं और विशिष्ट विचरण दोनों के बारे में पूर्ण जानकारी देता है।