Glossary ng Istatistika
Mga pangunahing terminong pang-istatistika at kahulugan
Standard Deviation (σ / s)
Isang sukat ng dami ng pagkakaiba-iba o pagkalat sa isang set ng mga halaga. Ito ang square root ng variance at ipinapahayag sa parehong yunit ng datos.
Variance (σ² / s²)
Ang average ng mga squared na pagkakaiba mula sa mean. Sinusukat ng variance ang antas ng pagkalat sa isang data set at ito ang square ng standard deviation.
Mean (μ / x̄)
Ang arithmetic average ng isang set ng mga halaga, kinakalkula sa pamamagitan ng pagsusuma ng lahat ng halaga at paghahati sa bilang. Kinakatawan nito ang central tendency ng datos.
Median
Ang gitnang halaga sa isang pinagsunod-sunod na data set. Kung may pantay na bilang ng mga halaga, ang median ay ang average ng dalawang gitnang halaga. Lumalaban ito sa mga outlier.
Mode
Ang halaga na pinakamadalas lumitaw sa isang data set. Ang isang data set ay maaaring may isang mode (unimodal), maraming mode (multimodal), o walang mode.
Range
Ang pagkakaiba sa pagitan ng pinakamalaki at pinakamaliit na halaga sa isang data set. Kahit simple itong kalkulahin, dalawang extreme na halaga lang ang isinasaalang-alang nito at sensitibo sa mga outlier.
Populasyon
Ang kumpletong set ng lahat ng indibidwal o obserbasyon ng interes sa isang pag-aaral. Ang mga parameter ng populasyon ay karaniwang kinakatawan ng mga Greek letter (μ, σ).
Sample
Isang subset ng isang populasyon na pinili para sa pagsusuri. Ang mga istatistika ng sample ay karaniwang kinakatawan ng mga Latin letter (x̄, s) at ginagamit upang i-estimate ang mga parameter ng populasyon.
Bessel's Correction
Ang paggamit ng n−1 sa halip na n sa denominator kapag kinakalkula ang sample variance. Ang correction na ito ay nagbibigay ng unbiased na estimate ng population variance mula sa isang sample.
Normal Distribution
Isang simetriko, hugis-kampanang probability distribution kung saan ang mean, median, at mode ay lahat pantay. Maraming natural na phenomena ang sumusunod sa humigit-kumulang normal distribution.
Empirical Rule (68-95-99.7)
Para sa normally distributed na datos, humigit-kumulang 68% ng mga halaga ay nasa loob ng ±1σ, 95% sa loob ng ±2σ, at 99.7% sa loob ng ±3σ mula sa mean.
Z-Score
Ang bilang ng mga standard deviation ng isang data point mula sa mean, kinakalkula bilang Z = (X − μ) / σ. Pinapayagan ng mga Z-score ang paghahambing ng mga halaga mula sa iba't ibang distribution.
Standard Error (SE)
Ang standard deviation ng sampling distribution ng isang statistic, pinakakaraniwan ay ang mean. SE = σ/√n, bumababa habang lumalaki ang sample size.
Confidence Interval
Isang range ng mga halaga na malamang naglalaman ng tunay na population parameter na may tinukoy na antas ng confidence (hal., 95%). Ang mas malapad na interval ay nagpapahiwatig ng mas mababang katumpakan.
Outlier
Isang data point na malaki ang pagkakaiba mula sa ibang mga obserbasyon. Kasama sa mga karaniwang paraan ng pagtukoy ang mga halaga na lampas sa ±2 o ±3 standard deviation mula sa mean.
Coefficient of Variation (CV)
Ang ratio ng standard deviation sa mean, ipinapahayag bilang porsyento (CV = σ/μ × 100%). Pinapayagan nito ang paghahambing ng variability sa mga data set na may iba't ibang sukat.
Skewness
Isang sukat ng asimetriya ng isang probability distribution. Ang positive skew ay nangangahulugang ang buntot ay umaabot sa kanan; ang negative skew ay nangangahulugang umaabot ito sa kaliwa.
Kurtosis
Isang sukat ng katangian ng buntot ng isang probability distribution. Ang mataas na kurtosis ay nagpapahiwatig ng mabibigat na buntot at matalas na tuktok; ang mababang kurtosis ay nagpapahiwatig ng magagaan na buntot at patag na tuktok.
Degrees of Freedom (df)
Ang bilang ng mga independiyenteng halaga na maaaring mag-iba sa isang istatistikal na kalkulasyon. Para sa sample standard deviation, df = n − 1, na sumasalamin sa Bessel's correction.
Central Limit Theorem
Nagsasaad na ang sampling distribution ng sample mean ay lumalapit sa isang normal distribution habang lumalaki ang sample size, anuman ang distribution ng populasyon.
Hypothesis Testing
Isang istatistikal na pamamaraan para sa paggawa ng mga desisyon batay sa datos. Kabilang dito ang paghahambing ng isang test statistic sa isang critical value o p-value upang matukoy kung tatanggihan ang null hypothesis.
P-Value
Ang probabilidad na maobserbahan ang isang resulta na kasing-extreme ng test statistic, kung ipinapalagay na totoo ang null hypothesis. Ang mas maliliit na p-value ay nagbibigay ng mas matibay na ebidensya laban sa null hypothesis.
Correlation Coefficient (r)
Isang halaga sa pagitan ng −1 at 1 na sumusukat sa lakas at direksyon ng linear na relasyon sa pagitan ng dalawang variable. Ang mga halaga na malapit sa ±1 ay nagpapahiwatig ng matibay na linear na relasyon.
Interquartile Range (IQR)
Ang pagkakaiba sa pagitan ng 75th percentile (Q3) at 25th percentile (Q1). Sinusukat ng IQR ang pagkalat ng gitnang 50% ng datos at lumalaban sa mga outlier.
Percentile
Isang halaga kung saan ang isang ibinigay na porsyento ng mga obserbasyon ay nasa ibaba. Halimbawa, ang 90th percentile ay ang halaga kung saan 90% ng mga data point ay matatagpuan sa ibaba.