सांख्यिकी शब्दावली
प्रमुख सांख्यिकीय शब्द और परिभाषाएँ
मानक विचलन (σ / s)
मानों के एक समुच्चय में भिन्नता या फैलाव की मात्रा का एक माप। यह प्रसरण का वर्गमूल है और डेटा की समान इकाइयों में व्यक्त किया जाता है।
प्रसरण (σ² / s²)
माध्य से वर्ग अंतरों का औसत। प्रसरण डेटा सेट में प्रसार की डिग्री को मात्रात्मक रूप से दर्शाता है और मानक विचलन का वर्ग है।
माध्य (μ / x̄)
मानों के एक समुच्चय का अंकगणितीय औसत, जो सभी मानों को जोड़कर और संख्या से भाग देकर गणना की जाती है। यह डेटा की केंद्रीय प्रवृत्ति का प्रतिनिधित्व करता है।
मध्यिका
क्रमबद्ध डेटा सेट का मध्य मान। यदि मानों की संख्या सम है, तो मध्यिका दो मध्य मानों का औसत है। यह बहिर्वक्र मानों के प्रति प्रतिरोधी है।
बहुलक
वह मान जो डेटा सेट में सबसे अधिक बार आता है। एक डेटा सेट में एक बहुलक (एकबहुलक), कई बहुलक (बहुबहुलक), या कोई बहुलक नहीं हो सकता है।
परास
डेटा सेट में सबसे बड़े और सबसे छोटे मान के बीच का अंतर। हालांकि गणना में सरल है, यह केवल दो चरम मानों पर विचार करता है और बहिर्वक्र मानों के प्रति संवेदनशील है।
जनसंख्या
किसी अध्ययन में रुचि के सभी व्यक्तियों या प्रेक्षणों का पूर्ण समुच्चय। जनसंख्या पैरामीटर आमतौर पर यूनानी अक्षरों (μ, σ) से दर्शाए जाते हैं।
प्रतिदर्श
विश्लेषण के लिए चुनी गई जनसंख्या की एक उपसमुच्चय। प्रतिदर्श सांख्यिकी आमतौर पर लैटिन अक्षरों (x̄, s) से दर्शाई जाती है और जनसंख्या पैरामीटरों का अनुमान लगाने के लिए उपयोग की जाती है।
बेसेल का सुधार
प्रतिदर्श प्रसरण की गणना करते समय हर में n के बजाय n−1 का उपयोग। यह सुधार प्रतिदर्श से जनसंख्या प्रसरण का अपक्षपाती अनुमान प्रदान करता है।
सामान्य वितरण
एक सममित, घंटी-आकार की प्रायिकता वितरण जहाँ माध्य, मध्यिका और बहुलक सभी बराबर होते हैं। कई प्राकृतिक घटनाएँ लगभग सामान्य वितरण का पालन करती हैं।
अनुभवजन्य नियम (68-95-99.7)
सामान्य रूप से वितरित डेटा के लिए, लगभग 68% मान ±1σ के भीतर, 95% ±2σ के भीतर, और 99.7% ±3σ के भीतर माध्य से आते हैं।
Z-स्कोर
एक डेटा बिंदु माध्य से कितने मानक विचलन दूर है, Z = (X − μ) / σ के रूप में गणना की जाती है। Z-स्कोर विभिन्न वितरणों के मानों की तुलना करने की अनुमति देते हैं।
मानक त्रुटि (SE)
किसी सांख्यिकी के प्रतिचयन वितरण का मानक विचलन, सबसे सामान्यतः माध्य का। SE = σ/√n, प्रतिदर्श आकार बढ़ने पर घटती है।
विश्वास अंतराल
मानों की एक सीमा जिसमें निर्दिष्ट विश्वास स्तर (जैसे, 95%) के साथ सच्चा जनसंख्या पैरामीटर होने की संभावना है। चौड़े अंतराल कम सटीकता दर्शाते हैं।
बहिर्वक्र
एक डेटा बिंदु जो अन्य प्रेक्षणों से महत्वपूर्ण रूप से भिन्न है। सामान्य पहचान विधियों में माध्य से ±2 या ±3 मानक विचलन से परे मान शामिल हैं।
विचरण गुणांक (CV)
मानक विचलन और माध्य का अनुपात, प्रतिशत में व्यक्त (CV = σ/μ × 100%)। यह विभिन्न मापनियों वाले डेटा सेट के बीच परिवर्तनशीलता की तुलना करने की अनुमति देता है।
विषमता
प्रायिकता वितरण की असमितता का एक माप। सकारात्मक विषमता का अर्थ है कि पूँछ दाईं ओर फैली है; नकारात्मक विषमता का अर्थ है कि यह बाईं ओर फैली है।
कुर्टोसिस
प्रायिकता वितरण की पूँछ की मोटाई का एक माप। उच्च कुर्टोसिस भारी पूँछ और तीखी चोटी दर्शाता है; कम कुर्टोसिस हल्की पूँछ और चपटी चोटी दर्शाता है।
स्वतंत्रता की कोटि (df)
एक सांख्यिकीय गणना में भिन्न हो सकने वाले स्वतंत्र मानों की संख्या। प्रतिदर्श मानक विचलन के लिए, df = n − 1, जो बेसेल के सुधार को दर्शाता है।
केंद्रीय सीमा प्रमेय
बताता है कि प्रतिदर्श माध्य का प्रतिचयन वितरण प्रतिदर्श आकार बढ़ने पर सामान्य वितरण के करीब पहुँचता है, जनसंख्या के वितरण की परवाह किए बिना।
परिकल्पना परीक्षण
डेटा के आधार पर निर्णय लेने की एक सांख्यिकीय विधि। इसमें शून्य परिकल्पना को अस्वीकार करना है या नहीं यह निर्धारित करने के लिए परीक्षण सांख्यिकी की तुलना एक क्रांतिक मान या p-मान से की जाती है।
P-मान
शून्य परिकल्पना सत्य मानते हुए, परीक्षण सांख्यिकी जितना चरम परिणाम प्राप्त होने की प्रायिकता। छोटे p-मान शून्य परिकल्पना के विरुद्ध मजबूत साक्ष्य प्रदान करते हैं।
सहसंबंध गुणांक (r)
−1 और 1 के बीच एक मान जो दो चरों के बीच रैखिक संबंध की शक्ति और दिशा को मापता है। ±1 के करीब मान एक मजबूत रैखिक संबंध दर्शाते हैं।
अंतरचतुर्थक परास (IQR)
75वें प्रतिशतक (Q3) और 25वें प्रतिशतक (Q1) के बीच का अंतर। IQR डेटा के मध्य 50% के प्रसार को मापता है और बहिर्वक्र मानों के प्रति प्रतिरोधी है।
प्रतिशतक
वह मान जिसके नीचे प्रेक्षणों का दिया गया प्रतिशत आता है। उदाहरण के लिए, 90वाँ प्रतिशतक वह मान है जिसके नीचे 90% डेटा बिंदु पाए जाते हैं।