Ano ang Standard Deviation?
Ang standard deviation ay isang istatistikal na sukat na nagku-kwantiya sa dami ng pagkakaiba-iba o dispersyon sa isang set ng mga halaga ng datos. Ang mababang standard deviation ay nagpapahiwatig na ang mga data point ay malapit sa mean (inaasahang halaga) ng set, habang ang mataas na standard deviation ay nagpapahiwatig na ang mga data point ay kalat sa mas malawak na saklaw ng mga halaga. Kinakatawan ito ng Griyegong letra na σ (sigma) para sa mga populasyon at s para sa mga sample, at ito ay isa sa mga pinakapundasyonal na konsepto sa deskriptibong estadistika.
Pangunahing Kahulugan
Population kumpara sa Sample Standard Deviation
Bago kalkulahin ang standard deviation, kailangan mong matukoy kung ang iyong datos ay kumakatawan sa buong populasyon o sa isang sample ng populasyon. Kasama sa populasyon ang lahat ng miyembro ng isang partikular na grupo, samantalang ang sample ay isang kinatawang subset ng grupong iyon. Ang pagkalkula ng standard deviation para sa isang sample ay nangangailangan ng matematikal na pagsasaayos—paggamit ng n - 1 (degrees of freedom, o df) sa halip na N—upang masiguro na ang resulta ay isang walang kinikilingang estimator ng variance ng populasyon.
Standard Deviation ng Populasyon
Standard Deviation ng Sample
Paliwanag sa Formula ng Standard Deviation
Umaasa ang mga formula ng standard deviation sa pagkalkula muna ng variance, at pagkatapos ay pagkuha ng square root. Ang hakbang na ito ng square root ay mahalaga dahil ibinabalik nito ang sukat ng pagkalat sa orihinal na yunit ng datos. Ang mga pangunahing bahagi ay ang xᵢ (bawat indibidwal na halaga), μ o x̄ (ang mean ng populasyon o sample), at N o n (ang kabuuang bilang ng mga halaga).
SD ng Populasyon
SD ng Sample
Halimbawa ng Pagkalkula Hakbang-hakbang
Kalkulahin natin ang sample standard deviation para sa isang maliit na dataset ng mga marka sa pagsusulit: [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]. Ang pagsunod sa formula hakbang-hakbang ay nagbibigay-linaw kung paano nag-iipon ang variance bago natin kunin ang panghuling square root.
Kalkulahin ang Mean (x̄)
Ibawas ang Mean at I-square ang Resulta
I-suma ang Mga Squared Difference
Hatiin sa n - 1 (Degrees of Freedom)
Kunin ang Square Root
Pagkalkula ng Standard Deviation sa Python
Ang pagkalkula ng standard deviation nang manu-mano ay madaling magkamali, lalo na sa malalaking dataset. Sa pagsasagawa, gumagamit ang mga estadistiko at data scientist ng mga programming language tulad ng Python upang kalkulahin ito agad-agad gamit ang mga built-in na library.
import statistics
data = [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]
# Kalkulahin ang sample standard deviation (default)
sample_sd = statistics.stdev(data)
print(f"Sample SD: {sample_sd:.2f}")
# Kalkulahin ang population standard deviation
pop_sd = statistics.pstdev(data)
print(f"Population SD: {pop_sd:.2f}")Ang Empirical Rule at Standard Deviation
Kapag ang datos ay sumusunod sa isang normal distribution (bell curve), ang standard deviation ay nagiging napakapredictive. Ang Empirical Rule, na kilala rin bilang patakaran ng 68-95-99.7, ay nagsasaad na halos lahat ng datos ay mahuhulog sa loob ng tatlong standard deviations mula sa mean. Nagbibigay-daan ito sa mga analyst na mabilis na matukoy ang mga outlier at maunawaan ang probabilidad ng paglitaw ng isang partikular na obserbasyon.
| Interbal mula sa Mean | Porsyento ng Datos | Aplikasyon |
|---|---|---|
| ±1σ | 68.27% | Pagkilala sa mga karaniwang halaga sa araw-araw |
| ±2σ | 95.45% | Pagbuo ng confidence intervals |
| ±3σ | 99.73% | Pag-detect sa mga matitinding outlier |
Standard Deviation kumpara sa Variance
Ang variance at standard deviation ay magkakaugnay na sukat ng pagkalat. Ang Variance (σ² o s²) ang average ng mga squared difference mula sa Mean, habang ang standard deviation ang square root ng variance. Dahil ang variance ay ipinapahayag sa squared units (halimbawa, parisukat na piso, parisukat na pulgada), mahirap itong bigyang-kahulugan sa konteksto ng orihinal na datos. Inaayos ito ng standard deviation sa pamamagitan ng pag-convert ng sukat pabalik sa orihinal na yunit.
Pag-uulat ng Iyong Datos
Mga Karaniwang Pagkakamali na Iwasan
Bagama't ang standard deviation ay isang makapangyarihang tool, ito ay madalas na maling ginagamit. Ang maling paglalapat ng mga formula o hindi pagkakaunawa sa kung ano ang kinakatawan ng halaga ay maaaring magdulot ng depektibong pagsusuri ng datos at mga maling konklusyon.
- Paggamit ng formula ng populasyon para sa isang sample: Ang pagkalimutang gumamit ng n - 1 para sa mga sample ay artipisyal na nagpapababa sa kinalkulang pagkalat, na nag-uunderestimate sa tunay na variance ng populasyon.
- Paglalapat ng SD sa mga non-normal na distribusyon: Ang Empirical Rule ay nalalapat lamang sa mga normal na distribusyon. Para sa mga highly skewed na datos, maaaring hindi tumpak na maipapakita ng SD ang pagkalat.
- Pagkalito ng SD sa Standard Error: Ang standard error ay sumusukat sa katumpakan ng estimate ng sample mean, habang ang standard deviation ay sumusukat sa pagkalat ng pinagbabatayan ng datos mismo.
Mag-ingat sa Mga Outlier
Further Reading
Sources
References and further authoritative reading used in preparing this article.