मानक विचलन क्या है?
मानक विचलन एक सांख्यिकीय माप है जो डेटा मानों के सेट में विविधता या फैलाव (dispersion) की मात्रा को मापता है। कम मानक विचलन यह दर्शाता है कि डेटा बिंदु सेट के माध्य (mean) (प्रत्याशित मान) के करीब होने की प्रवृत्ति रखते हैं, जबकि उच्च मानक विचलन यह दर्शाता है कि डेटा बिंदु मूल्यों की एक विस्तृत श्रेणी में फैले हुए हैं। इसे समष्टि (population) के लिए ग्रीक अक्षर σ (सिग्मा) और नमूने (sample) के लिए s द्वारा दर्शाया जाता है, यह वर्णनात्मक सांख्यिकी (descriptive statistics) के सबसे बुनियादी और महत्वपूर्ण अवधारणाओं में से एक है।
मुख्य परिभाषा
समष्टि बनाम नमूना मानक विचलन
मानक विचलन की गणना करने से पहले, आपको यह तय करना होगा कि आपका डेटा पूरी समष्टि (population) का प्रतिनिधित्व करता है या समष्टि का एक नमूना (sample)। समष्टि में एक निर्दिष्ट समूह के सभी सदस्य शामिल होते हैं, जबकि नमूना उस समूह का एक प्रतिनिधि उपसमूह होता है। नमूने के लिए मानक विचलन की गणना करने हेतु एक गणितीय समायोजन की आवश्यकता होती है—समष्टि प्रसरण का एक अनभिनत (unbiased) आकलक सुनिश्चित करने के लिए N के बजाय n - 1 (स्वतंत्रता की कोटियाँ, या df) का उपयोग करना पड़ता है।
समष्टि मानक विचलन
नमूना मानक विचलन
मानक विचलन सूत्र की विस्तृत व्याख्या
मानक विचलन के सूत्र पहले प्रसरण की गणना करने और फिर वर्गमूल लेने पर आधारित हैं। वर्गमूल का चरण बहुत महत्वपूर्ण है क्योंकि यह फैलाव के माप को वापस डेटा की मूल इकाइयों में ले आता है। मुख्य घटक हैं xᵢ (प्रत्येक व्यक्तिगत मान), μ या x̄ (समष्टि या नमूना माध्य), और N या n (मानों की कुल संख्या)।
समष्टि मानक विचलन
नमूना मानक विचलन
चरणबद्ध गणना उदाहरण
आइए परीक्षा अंकों के एक छोटे डेटासेट के लिए नमूना मानक विचलन की गणना करते हैं: [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]। सूत्र का चरण-दर-चरण पालन करने से यह पता चलता है कि अंतिम वर्गमूल लेने से पहले प्रसरण कैसे जमा होता है।
माध्य (x̄) की गणना करें
माध्य घटाएँ और परिणाम का वर्ग करें
वर्ग अंतरों का योग करें
n - 1 (स्वतंत्रता की कोटियाँ) से विभाजित करें
वर्गमूल लें
पायथन में मानक विचलन की गणना
मानक विचलन की मैन्युअल गणना करना, विशेष रूप से बड़े डेटासेट के साथ, त्रुटि की संभावना बढ़ा देता है। व्यवहार में, सांख्यिकीविद् और डेटा वैज्ञानिक अंतर्निहित लाइब्रेरीज़ का उपयोग करके इसकी तत्काल गणना करने के लिए पायथन जैसी प्रोग्रामिंग भाषाओं का उपयोग करते हैं।
import statistics
data = [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]
# नमूना मानक विचलन की गणना करें (डिफ़ॉल्ट)
sample_sd = statistics.stdev(data)
print(f"Sample SD: {sample_sd:.2f}")
# समष्टि मानक विचलन की गणना करें
pop_sd = statistics.pstdev(data)
print(f"Population SD: {pop_sd:.2f}")अनुभवजन्य नियम और मानक विचलन
जब डेटा एक सामान्य वितरण (normal distribution) (घंटी वक्र) का पालन करता है, तो मानक विचलन अत्यधिक भविष्यसूचक बन जाता है। अनुभवजन्य नियम (Empirical Rule), जिसे 68-95-99.7 नियम के रूप में भी जाना जाता है, कहता है कि लगभग सभी डेटा माध्य के तीन मानक विचलनों के भीतर होंगे। इससे विश्लेषकों को बाह्य बिंदुओं (outliers) को जल्दी पहचानने और किसी विशिष्ट अवलोकन के होने की संभावना को समझने में मदद मिलती है।
| माध्य से अंतराल | डेटा का प्रतिशत | अनुप्रयोग |
|---|---|---|
| ±1σ | 68.27% | सामान्य, रोज़मर्रा के मानों की पहचान करना |
| ±2σ | 95.45% | विश्वास अंतराल (confidence intervals) सेट करना |
| ±3σ | 99.73% | चरम बाह्य बिंदुओं (outliers) का पता लगाना |
मानक विचलन बनाम प्रसरण
प्रसरण और मानक विचलन फैलाव के निकट से संबंधित उपाय हैं। प्रसरण (Variance) (σ² या s²) माध्य से वर्ग अंतरों का औसत है, जबकि मानक विचलन प्रसरण का वर्गमूल है। चूंकि प्रसरण को वर्ग इकाइयों (जैसे, वर्ग रुपये, वर्ग सेंटीमीटर) में व्यक्त किया जाता है, इसलिए इसे मूल डेटा के संदर्भ में समझना मुश्किल हो सकता है। मानक विचलन इस समस्या को माप को मूल इकाइयों में वापस बदलकर हल करता है।
अपने डेटा की रिपोर्टिंग करते समय
बचने की सामान्य गलतियाँ
हालांकि मानक विचलन एक शक्तिशाली उपकरण है, इसका अक्सर गलत उपयोग किया जाता है। सूत्रों को गलत तरीके से लागू करने या मान के अर्थ को गलत समझने से त्रुटिपूर्ण डेटा विश्लेषण और गलत निष्कर्ष निकल सकते हैं।
- नमूने के लिए समष्टि सूत्र का उपयोग करना: नमूनों के लिए n - 1 का उपयोग करना भूल जाने से गणना किया गया फैलाव कृत्रिम रूप से कम हो जाता है, जिससे वास्तविक समष्टि प्रसरण का अवमूल्यन होता है।
- गैर-सामान्य वितरणों पर मानक विचलन लागू करना: अनुभवजन्य नियम केवल सामान्य वितरणों पर लागू होता है। अत्यधिक तिरछे (skewed) डेटा के लिए, मानक विचलन फैलाव को सटीक रूप से दर्शाने में विफल रह सकता है।
- मानक विचलन को मानक त्रुटि (Standard Error) से भ्रमित करना: मानक त्रुटि नमूना माध्य आकलन की सटीकता को मापती है, जबकि मानक विचलन अंतर्निहित डेटा के फैलाव को मापता है।
बाह्य बिंदुओं (Outliers) से सावधान रहें
Further Reading
Sources
References and further authoritative reading used in preparing this article.