Glossary ng Istatistika

Mga pangunahing terminong pang-istatistika at kahulugan

general

Standard Deviation (σ / s)

Isang sukat ng dami ng pagkakaiba-iba o pagkalat sa isang set ng mga halaga. Ito ang square root ng variance at ipinapahayag sa parehong yunit ng datos.

Variance (σ² / s²)

Ang average ng mga squared na pagkakaiba mula sa mean. Sinusukat ng variance ang antas ng pagkalat sa isang data set at ito ang square ng standard deviation.

Mean (μ / x̄)

Ang arithmetic average ng isang set ng mga halaga, kinakalkula sa pamamagitan ng pagsusuma ng lahat ng halaga at paghahati sa bilang. Kinakatawan nito ang central tendency ng datos.

Median

Ang gitnang halaga sa isang pinagsunod-sunod na data set. Kung may pantay na bilang ng mga halaga, ang median ay ang average ng dalawang gitnang halaga. Lumalaban ito sa mga outlier.

Mode

Ang halaga na pinakamadalas lumitaw sa isang data set. Ang isang data set ay maaaring may isang mode (unimodal), maraming mode (multimodal), o walang mode.

Range

Ang pagkakaiba sa pagitan ng pinakamalaki at pinakamaliit na halaga sa isang data set. Kahit simple itong kalkulahin, dalawang extreme na halaga lang ang isinasaalang-alang nito at sensitibo sa mga outlier.

Populasyon

Ang kumpletong set ng lahat ng indibidwal o obserbasyon ng interes sa isang pag-aaral. Ang mga parameter ng populasyon ay karaniwang kinakatawan ng mga Greek letter (μ, σ).

Sample

Isang subset ng isang populasyon na pinili para sa pagsusuri. Ang mga istatistika ng sample ay karaniwang kinakatawan ng mga Latin letter (x̄, s) at ginagamit upang i-estimate ang mga parameter ng populasyon.

Bessel's Correction

Ang paggamit ng n−1 sa halip na n sa denominator kapag kinakalkula ang sample variance. Ang correction na ito ay nagbibigay ng unbiased na estimate ng population variance mula sa isang sample.

Normal Distribution

Isang simetriko, hugis-kampanang probability distribution kung saan ang mean, median, at mode ay lahat pantay. Maraming natural na phenomena ang sumusunod sa humigit-kumulang normal distribution.

Empirical Rule (68-95-99.7)

Para sa normally distributed na datos, humigit-kumulang 68% ng mga halaga ay nasa loob ng ±1σ, 95% sa loob ng ±2σ, at 99.7% sa loob ng ±3σ mula sa mean.

Z-Score

Ang bilang ng mga standard deviation ng isang data point mula sa mean, kinakalkula bilang Z = (X − μ) / σ. Pinapayagan ng mga Z-score ang paghahambing ng mga halaga mula sa iba't ibang distribution.

Standard Error (SE)

Ang standard deviation ng sampling distribution ng isang statistic, pinakakaraniwan ay ang mean. SE = σ/√n, bumababa habang lumalaki ang sample size.

Confidence Interval

Isang range ng mga halaga na malamang naglalaman ng tunay na population parameter na may tinukoy na antas ng confidence (hal., 95%). Ang mas malapad na interval ay nagpapahiwatig ng mas mababang katumpakan.

Outlier

Isang data point na malaki ang pagkakaiba mula sa ibang mga obserbasyon. Kasama sa mga karaniwang paraan ng pagtukoy ang mga halaga na lampas sa ±2 o ±3 standard deviation mula sa mean.

Coefficient of Variation (CV)

Ang ratio ng standard deviation sa mean, ipinapahayag bilang porsyento (CV = σ/μ × 100%). Pinapayagan nito ang paghahambing ng variability sa mga data set na may iba't ibang sukat.

Skewness

Isang sukat ng asimetriya ng isang probability distribution. Ang positive skew ay nangangahulugang ang buntot ay umaabot sa kanan; ang negative skew ay nangangahulugang umaabot ito sa kaliwa.

Kurtosis

Isang sukat ng katangian ng buntot ng isang probability distribution. Ang mataas na kurtosis ay nagpapahiwatig ng mabibigat na buntot at matalas na tuktok; ang mababang kurtosis ay nagpapahiwatig ng magagaan na buntot at patag na tuktok.

Degrees of Freedom (df)

Ang bilang ng mga independiyenteng halaga na maaaring mag-iba sa isang istatistikal na kalkulasyon. Para sa sample standard deviation, df = n − 1, na sumasalamin sa Bessel's correction.

Central Limit Theorem

Nagsasaad na ang sampling distribution ng sample mean ay lumalapit sa isang normal distribution habang lumalaki ang sample size, anuman ang distribution ng populasyon.

Hypothesis Testing

Isang istatistikal na pamamaraan para sa paggawa ng mga desisyon batay sa datos. Kabilang dito ang paghahambing ng isang test statistic sa isang critical value o p-value upang matukoy kung tatanggihan ang null hypothesis.

P-Value

Ang probabilidad na maobserbahan ang isang resulta na kasing-extreme ng test statistic, kung ipinapalagay na totoo ang null hypothesis. Ang mas maliliit na p-value ay nagbibigay ng mas matibay na ebidensya laban sa null hypothesis.

Correlation Coefficient (r)

Isang halaga sa pagitan ng −1 at 1 na sumusukat sa lakas at direksyon ng linear na relasyon sa pagitan ng dalawang variable. Ang mga halaga na malapit sa ±1 ay nagpapahiwatig ng matibay na linear na relasyon.

Interquartile Range (IQR)

Ang pagkakaiba sa pagitan ng 75th percentile (Q3) at 25th percentile (Q1). Sinusukat ng IQR ang pagkalat ng gitnang 50% ng datos at lumalaban sa mga outlier.

Percentile

Isang halaga kung saan ang isang ibinigay na porsyento ng mga obserbasyon ay nasa ibaba. Halimbawa, ang 90th percentile ay ang halaga kung saan 90% ng mga data point ay matatagpuan sa ibaba.