सांख्यिकी शब्दावली

प्रमुख सांख्यिकीय शब्द और परिभाषाएँ

general

मानक विचलन (σ / s)

मानों के एक समुच्चय में भिन्नता या फैलाव की मात्रा का एक माप। यह प्रसरण का वर्गमूल है और डेटा की समान इकाइयों में व्यक्त किया जाता है।

प्रसरण (σ² / s²)

माध्य से वर्ग अंतरों का औसत। प्रसरण डेटा सेट में प्रसार की डिग्री को मात्रात्मक रूप से दर्शाता है और मानक विचलन का वर्ग है।

माध्य (μ / x̄)

मानों के एक समुच्चय का अंकगणितीय औसत, जो सभी मानों को जोड़कर और संख्या से भाग देकर गणना की जाती है। यह डेटा की केंद्रीय प्रवृत्ति का प्रतिनिधित्व करता है।

मध्यिका

क्रमबद्ध डेटा सेट का मध्य मान। यदि मानों की संख्या सम है, तो मध्यिका दो मध्य मानों का औसत है। यह बहिर्वक्र मानों के प्रति प्रतिरोधी है।

बहुलक

वह मान जो डेटा सेट में सबसे अधिक बार आता है। एक डेटा सेट में एक बहुलक (एकबहुलक), कई बहुलक (बहुबहुलक), या कोई बहुलक नहीं हो सकता है।

परास

डेटा सेट में सबसे बड़े और सबसे छोटे मान के बीच का अंतर। हालांकि गणना में सरल है, यह केवल दो चरम मानों पर विचार करता है और बहिर्वक्र मानों के प्रति संवेदनशील है।

जनसंख्या

किसी अध्ययन में रुचि के सभी व्यक्तियों या प्रेक्षणों का पूर्ण समुच्चय। जनसंख्या पैरामीटर आमतौर पर यूनानी अक्षरों (μ, σ) से दर्शाए जाते हैं।

प्रतिदर्श

विश्लेषण के लिए चुनी गई जनसंख्या की एक उपसमुच्चय। प्रतिदर्श सांख्यिकी आमतौर पर लैटिन अक्षरों (x̄, s) से दर्शाई जाती है और जनसंख्या पैरामीटरों का अनुमान लगाने के लिए उपयोग की जाती है।

बेसेल का सुधार

प्रतिदर्श प्रसरण की गणना करते समय हर में n के बजाय n−1 का उपयोग। यह सुधार प्रतिदर्श से जनसंख्या प्रसरण का अपक्षपाती अनुमान प्रदान करता है।

सामान्य वितरण

एक सममित, घंटी-आकार की प्रायिकता वितरण जहाँ माध्य, मध्यिका और बहुलक सभी बराबर होते हैं। कई प्राकृतिक घटनाएँ लगभग सामान्य वितरण का पालन करती हैं।

अनुभवजन्य नियम (68-95-99.7)

सामान्य रूप से वितरित डेटा के लिए, लगभग 68% मान ±1σ के भीतर, 95% ±2σ के भीतर, और 99.7% ±3σ के भीतर माध्य से आते हैं।

Z-स्कोर

एक डेटा बिंदु माध्य से कितने मानक विचलन दूर है, Z = (X − μ) / σ के रूप में गणना की जाती है। Z-स्कोर विभिन्न वितरणों के मानों की तुलना करने की अनुमति देते हैं।

मानक त्रुटि (SE)

किसी सांख्यिकी के प्रतिचयन वितरण का मानक विचलन, सबसे सामान्यतः माध्य का। SE = σ/√n, प्रतिदर्श आकार बढ़ने पर घटती है।

विश्वास अंतराल

मानों की एक सीमा जिसमें निर्दिष्ट विश्वास स्तर (जैसे, 95%) के साथ सच्चा जनसंख्या पैरामीटर होने की संभावना है। चौड़े अंतराल कम सटीकता दर्शाते हैं।

बहिर्वक्र

एक डेटा बिंदु जो अन्य प्रेक्षणों से महत्वपूर्ण रूप से भिन्न है। सामान्य पहचान विधियों में माध्य से ±2 या ±3 मानक विचलन से परे मान शामिल हैं।

विचरण गुणांक (CV)

मानक विचलन और माध्य का अनुपात, प्रतिशत में व्यक्त (CV = σ/μ × 100%)। यह विभिन्न मापनियों वाले डेटा सेट के बीच परिवर्तनशीलता की तुलना करने की अनुमति देता है।

विषमता

प्रायिकता वितरण की असमितता का एक माप। सकारात्मक विषमता का अर्थ है कि पूँछ दाईं ओर फैली है; नकारात्मक विषमता का अर्थ है कि यह बाईं ओर फैली है।

कुर्टोसिस

प्रायिकता वितरण की पूँछ की मोटाई का एक माप। उच्च कुर्टोसिस भारी पूँछ और तीखी चोटी दर्शाता है; कम कुर्टोसिस हल्की पूँछ और चपटी चोटी दर्शाता है।

स्वतंत्रता की कोटि (df)

एक सांख्यिकीय गणना में भिन्न हो सकने वाले स्वतंत्र मानों की संख्या। प्रतिदर्श मानक विचलन के लिए, df = n − 1, जो बेसेल के सुधार को दर्शाता है।

केंद्रीय सीमा प्रमेय

बताता है कि प्रतिदर्श माध्य का प्रतिचयन वितरण प्रतिदर्श आकार बढ़ने पर सामान्य वितरण के करीब पहुँचता है, जनसंख्या के वितरण की परवाह किए बिना।

परिकल्पना परीक्षण

डेटा के आधार पर निर्णय लेने की एक सांख्यिकीय विधि। इसमें शून्य परिकल्पना को अस्वीकार करना है या नहीं यह निर्धारित करने के लिए परीक्षण सांख्यिकी की तुलना एक क्रांतिक मान या p-मान से की जाती है।

P-मान

शून्य परिकल्पना सत्य मानते हुए, परीक्षण सांख्यिकी जितना चरम परिणाम प्राप्त होने की प्रायिकता। छोटे p-मान शून्य परिकल्पना के विरुद्ध मजबूत साक्ष्य प्रदान करते हैं।

सहसंबंध गुणांक (r)

−1 और 1 के बीच एक मान जो दो चरों के बीच रैखिक संबंध की शक्ति और दिशा को मापता है। ±1 के करीब मान एक मजबूत रैखिक संबंध दर्शाते हैं।

अंतरचतुर्थक परास (IQR)

75वें प्रतिशतक (Q3) और 25वें प्रतिशतक (Q1) के बीच का अंतर। IQR डेटा के मध्य 50% के प्रसार को मापता है और बहिर्वक्र मानों के प्रति प्रतिरोधी है।

प्रतिशतक

वह मान जिसके नीचे प्रेक्षणों का दिया गया प्रतिशत आता है। उदाहरण के लिए, 90वाँ प्रतिशतक वह मान है जिसके नीचे 90% डेटा बिंदु पाए जाते हैं।