Mi a szórás?
A szórás (standard deviation) egy statisztikai mutató, amely méri az adatértékek szóródását vagy változékonyságát. Az alacsony szórás azt jelzi, hogy az adatpontok az átlaghoz (várható értékhez) közel helyezkednek el, míg a magas szórás azt, hogy az értékek szélesebb tartományban oszlanak el. Az alapsokaság szórását a görög σ (szigma), a minta szórását az s betű jelöli; a leíró statisztika egyik legfontosabb alapfogalma.
Alapvető definíció
Alapsokasági és minta szórás
Mielőtt kiszámítod a szórást, el kell döntened, hogy az adatod egy teljes alapsokaságot (populációt) vagy annak egy mintáját képviseli-e. Az alapsokaság magában foglalja egy megadott csoport minden tagját, míg a minta e csoport reprezentatív részhalmaza. A minta szórásának kiszámításához matematikai kiigazítás szükséges – az N helyett n - 1 (szabadságfok, vagy df) használatával –, hogy az eredmény a populációs variancia torzítatlan becslése legyen.
Alapsokasági szórás
Minta szórás
A szórás képlete magyarázattal
A szórás képletei a variancia kiszámításán alapulnak, majd a négyzetgyök vonásán. Ez a négyzetgyökvonás kritikus lépés, mert visszahozza a szóródás mértékét az adatok eredeti mértékegységébe. A legfontosabb összetevők: xᵢ (az egyes értékek), μ vagy x̄ (az alapsokasági vagy mintaátlag), valamint N vagy n (az értékek teljes száma).
Alapsokasági szórás
Minta szórás
Lépésről lépésre számítási példa
Számítsuk ki a minta szórását egy kis teszteredmény-adatsorra: [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]. A képlet lépésről lépésre történő alkalmazása megmutatja, hogyan halmozódik fel a variancia, mielőtt vonjuk a végső négyzetgyököt.
Átlag kiszámítása (x̄)
Vond ki az átlagot, és négyzetre emeld
Négyzetes eltérések összege
Oszd el n - 1-gyel (szabadságfok)
Vonj négyzetgyököt
Szórás számítása Pythonban
A szórás kézi kiszámítása – különösen nagy adathalmazok esetén – hibalehetőséget rejt magában. A gyakorlatban a statisztikusok és adatkutatók olyan programozási nyelveket használnak, mint a Python, amelyek beépített könyvtáraival pillanatok alatt elvégzik a számítást.
import statistics
data = [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]
# Minta szórásának kiszámítása (alapértelmezett)
sample_sd = statistics.stdev(data)
print(f"Sample SD: {sample_sd:.2f}")
# Alapsokasági szórás kiszámítása
pop_sd = statistics.pstdev(data)
print(f"Population SD: {pop_sd:.2f}")A tapasztalati szabály és a szórás
Amikor az adatok normális eloszlást (haranggörbét) követnek, a szórás rendkívül prediktívvé válik. A tapasztalati szabály, más néven a 68-95-99.7-es szabály kimondja, hogy az adatok túlnyomó része az átlagtól számított három szórásnyi távolságon belül helyezkedik el. Ez lehetővé teszi az elemzők számára, hogy gyorsan azonosítsák a kiugró értékeket (outliereket), és megértsék egy adott megfigyelés előfordulásának valószínűségét.
| Távolság az átlagtól | Adatok aránya | Alkalmazás |
|---|---|---|
| ±1σ | 68.27% | A tipikus, mindennapi értékek azonosítása |
| ±2σ | 95.45% | Konfidenciaintervallumok meghatározása |
| ±3σ | 99.73% | Extrém kiugró értékek detektálása |
Szórás vs. variancia
A variancia és a szórás szorosan összefüggő szóródási mutatók. A variancia (σ² vagy s²) az átlagtól mért négyzetes eltérések átlaga, míg a szórás a variancia négyzetgyöke. Mivel a variancia négyzetes mértékegységekben (pl. négyzetes forint, négyzetes centiméter) fejeződik ki, az eredeti adatok kontextusában nehezen értelmezhető. A szórás ezt úgy oldja meg, hogy visszakonvertálja a mutatót az eredeti mértékegységbe.
Az adataid közlése
Gyakori hibák, amiket érdemes elkerülni
Bár a szórás hatékony eszköz, gyakran használják helytelenül. A képletek rossz alkalmazása vagy az érték jelentésének félreértése hibás adatelemzéshez és téves következtetésekhez vezethet.
- Alapsokasági képlet használata mintára: Ha minta esetén elfelejtünk n - 1-et használni, az mesterségesen csökkenti a kiszámított szóródást, és alulbecsüli a valódi alapsokasági varianciát.
- Szórás alkalmazása nem normális eloszlásokra: A tapasztalati szabály csak normális eloszlásokra érvényes. Erősen ferde (aszimmetrikus) adatok esetén a szórás nem feltétlenül tükrözi pontosan a szóródást.
- Szórás összetévesztése a standard hibával: A standard hiba (standard error) a mintaátlag becslésének pontosságát méri, míg a szórás magának a mögöttes adathalmaznak a szóródását méri.
Vigyázz a kiugró értékekkel!
Further Reading
Sources
References and further authoritative reading used in preparing this article.