Σ
SDCalc
KezdőFundamentals·9 min

Mi a szórás? Definíció, képlet és gyakorlati példák

Tanuld meg, mi a szórás, hogyan számítható ki mintákra és alapsokaságra, és miért elengedhetetlen az adatelemzésben. Sajátítsd el a képleteket még ma!

By Standard Deviation Calculator Team · Data Science Team·Published

Mi a szórás?

A szórás (standard deviation) egy statisztikai mutató, amely méri az adatértékek szóródását vagy változékonyságát. Az alacsony szórás azt jelzi, hogy az adatpontok az átlaghoz (várható értékhez) közel helyezkednek el, míg a magas szórás azt, hogy az értékek szélesebb tartományban oszlanak el. Az alapsokaság szórását a görög σ (szigma), a minta szórását az s betű jelöli; a leíró statisztika egyik legfontosabb alapfogalma.

Alapvető definíció

A szórás méri az egyes adatpontok és az átlag közötti tipikus távolságot. Megmutatja, átlagosan mennyire térnek el az adataid a középponttól.

Alapsokasági és minta szórás

Mielőtt kiszámítod a szórást, el kell döntened, hogy az adatod egy teljes alapsokaságot (populációt) vagy annak egy mintáját képviseli-e. Az alapsokaság magában foglalja egy megadott csoport minden tagját, míg a minta e csoport reprezentatív részhalmaza. A minta szórásának kiszámításához matematikai kiigazítás szükséges – az N helyett n - 1 (szabadságfok, vagy df) használatával –, hogy az eredmény a populációs variancia torzítatlan becslése legyen.

Alapsokasági szórás

Akkor használjuk, ha a teljes csoport adataival rendelkezünk. Jelölése: σ. A varianciaképlet nevezője N (az alapsokaság teljes mérete).

Minta szórás

Akkor használjuk, ha csak a csoport egy részhalmazával rendelkezünk. Jelölése: s. A varianciaképlet nevezője n - 1 (minta mérete mínusz egy) a torzítás kiküszöbölésére.

A szórás képlete magyarázattal

A szórás képletei a variancia kiszámításán alapulnak, majd a négyzetgyök vonásán. Ez a négyzetgyökvonás kritikus lépés, mert visszahozza a szóródás mértékét az adatok eredeti mértékegységébe. A legfontosabb összetevők: xᵢ (az egyes értékek), μ vagy (az alapsokasági vagy mintaátlag), valamint N vagy n (az értékek teljes száma).

Alapsokasági szórás

σ = √[ Σ(xᵢ - μ)² / N ]

Minta szórás

s = √[ Σ(xᵢ - x̄)² / (n - 1) ]

Lépésről lépésre számítási példa

Számítsuk ki a minta szórását egy kis teszteredmény-adatsorra: [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]. A képlet lépésről lépésre történő alkalmazása megmutatja, hogyan halmozódik fel a variancia, mielőtt vonjuk a végső négyzetgyököt.

1

Átlag kiszámítása (x̄)

Összegezd az értékeket, és oszd el a számukkal: (4+8+6+5+3+2+8+9+2+5) / 10 = 52 / 10 = 5.2
2

Vond ki az átlagot, és négyzetre emeld

Minden értéknél határozd meg a négyzetes eltérést: (4-5.2)² = 1.44, (8-5.2)² = 7.84, (6-5.2)² = 0.64, stb.
3

Négyzetes eltérések összege

Add össze az összes négyzetes eltérést: 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04 = 57.6
4

Oszd el n - 1-gyel (szabadságfok)

Oszd el az összeget a mintaméret mínusz eggyel: 57.6 / (10 - 1) = 57.6 / 9 = 6.4. Ez a minta varianciája (σ²).
5

Vonj négyzetgyököt

Határozd meg a variancia négyzetgyökét: √6.4 ≈ 2.53. A minta szórása tehát 2.53.

Szórás számítása Pythonban

A szórás kézi kiszámítása – különösen nagy adathalmazok esetén – hibalehetőséget rejt magában. A gyakorlatban a statisztikusok és adatkutatók olyan programozási nyelveket használnak, mint a Python, amelyek beépített könyvtáraival pillanatok alatt elvégzik a számítást.

python
import statistics

data = [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]

# Minta szórásának kiszámítása (alapértelmezett)
sample_sd = statistics.stdev(data)
print(f"Sample SD: {sample_sd:.2f}")

# Alapsokasági szórás kiszámítása
pop_sd = statistics.pstdev(data)
print(f"Population SD: {pop_sd:.2f}")

A tapasztalati szabály és a szórás

Amikor az adatok normális eloszlást (haranggörbét) követnek, a szórás rendkívül prediktívvé válik. A tapasztalati szabály, más néven a 68-95-99.7-es szabály kimondja, hogy az adatok túlnyomó része az átlagtól számított három szórásnyi távolságon belül helyezkedik el. Ez lehetővé teszi az elemzők számára, hogy gyorsan azonosítsák a kiugró értékeket (outliereket), és megértsék egy adott megfigyelés előfordulásának valószínűségét.

Távolság az átlagtólAdatok arányaAlkalmazás
±1σ68.27%A tipikus, mindennapi értékek azonosítása
±2σ95.45%Konfidenciaintervallumok meghatározása
±3σ99.73%Extrém kiugró értékek detektálása

Szórás vs. variancia

A variancia és a szórás szorosan összefüggő szóródási mutatók. A variancia (σ² vagy s²) az átlagtól mért négyzetes eltérések átlaga, míg a szórás a variancia négyzetgyöke. Mivel a variancia négyzetes mértékegységekben (pl. négyzetes forint, négyzetes centiméter) fejeződik ki, az eredeti adatok kontextusában nehezen értelmezhető. A szórás ezt úgy oldja meg, hogy visszakonvertálja a mutatót az eredeti mértékegységbe.

Az adataid közlése

Az adatok bemutatásakor mindig tüntesd fel a szórást az átlag mellett. Mivel a szórás ugyanabban a mértékegységben van, mint az átlag (pl. forint, centiméter, kilogramm), intuitív szóródási mértéket ad, amelyet a közönség azonnal megért.

Gyakori hibák, amiket érdemes elkerülni

Bár a szórás hatékony eszköz, gyakran használják helytelenül. A képletek rossz alkalmazása vagy az érték jelentésének félreértése hibás adatelemzéshez és téves következtetésekhez vezethet.

  • Alapsokasági képlet használata mintára: Ha minta esetén elfelejtünk n - 1-et használni, az mesterségesen csökkenti a kiszámított szóródást, és alulbecsüli a valódi alapsokasági varianciát.
  • Szórás alkalmazása nem normális eloszlásokra: A tapasztalati szabály csak normális eloszlásokra érvényes. Erősen ferde (aszimmetrikus) adatok esetén a szórás nem feltétlenül tükrözi pontosan a szóródást.
  • Szórás összetévesztése a standard hibával: A standard hiba (standard error) a mintaátlag becslésének pontosságát méri, míg a szórás magának a mögöttes adathalmaznak a szóródását méri.

Vigyázz a kiugró értékekkel!

A szórás rendkívül érzékeny a szélsőséges kiugró értékekre. Mivel a képlet négyzetre emeli az átlagtól való eltéréseket, egyetlen masszív kiugró érték is aránytalanul felduzzaszthatja a szórást, ami miatt az adatok változékonyabbnak tűnhetnek, mint amilyenek valójában.

Further Reading

Sources

References and further authoritative reading used in preparing this article.

  1. Wikipédia: Szórás
  2. NIST/SEMATECH e-Handbook of Statistical Methods
  3. Khan Academy: Statisztika és valószínűség