Σ
SDCalc
KözéphaladóFundamentals·9 min

Szórás vs. Variancia: A legfontosabb különbségek érthetően

Értsd meg a szórás és a variancia közötti kritikus különbségeket. Tudd meg, mikor melyiket használd, mi a képletük, és hogyan hatnak az adatelemzésre.

By Standard Deviation Calculator Team · Data Science Team·Published

Mi a variancia?

Variancia (jele sokaságra σ², mintára s²) a statisztikában az adatok szóródásának mértéke. A négyzetes eltérések átlagát jelenti az átlagtól (μ). Az eltérések négyzetre emelésével a variancia biztosítja, hogy a negatív és pozitív eltérések ne egyenlítsék ki egymást, így valódi szóródásmértéket kapunk. Mivel azonban az eltérések négyzetre vannak emelve, a variancia mértékegysége az eredeti adatok mértékegységének négyzete lesz, ami közvetlenül nehezen értelmezhető.

Sokasági variancia

σ² = Σ(xᵢ - μ)² / N

Mértékegységek

Ha az adataid például magasságot fejeznek ki centiméterben, a variancia négyzetcentiméterben (cm²) lesz kifejezve. Ez a négyzetes mértékegység az egyik fő oka annak, hogy a varianciát a gyakorlatban, a valódi világ kontextusában nehéz értelmezni.

Mi a szórás?

Szórás (jele sokaságra σ, mintára s) a variancia négyzetgyöke. Megmutatja, hogy az egyes adatpontok átlagosan mennyire térnek el az átlagtól. Mivel a variancia négyzetgyökeként kapjuk, a szórás mértékegysége megegyezik az eredeti adatokéval, így a valódi alkalmazásokban sokkal intuitívabb és könnyebben értelmezhető. A statisztikai szóródás leggyakrabban használt mértéke.

Sokasági szórás

σ = √(Σ(xᵢ - μ)² / N)

Szórás vs. Variancia: A lényegi különbségek

Bár mindkét mutatószám méri az adatpontok átlagtól való szóródását, matematikai kapcsolatuk és gyakorlati hasznosságuk jelentősen eltér. Az alapvető különbség a mértékegységekben és az értelmezhetőségben rejlik. A szórás a variancia négyzetgyöke, ami visszaállítja a szóródásmértéket az adatok eredeti mértékegységére. A variancia, mint négyzetes érték, aránytalanul nagyobb súlyt ad a kiugró értékeknek, így sokkal érzékenyebb a szélsőértékekre.

JellemzőVariancia (σ² / s²)Szórás (σ / s)
Matematikai alapA négyzetes eltérések átlagaA variancia négyzetgyöke
MértékegységNégyzetes mértékegység (pl. cm², Ft²)Eredeti mértékegység (pl. cm, Ft)
ÉrtelmezhetőségAbsztrakt; nehezen kapcsolható az adatokhozIntuitív; közvetlenül kapcsolódik az adatokhoz
Érzékenység a kiugró értékekreMagas (a négyzetre emelés miatt)Közepes (a négyzetgyök mérsékli a hatást)
Elsődleges felhasználási területStatisztikai következtetés, ANOVA, PortfólióelméletLeíró statisztika, Jelentések, Tapasztalati szabály

Sokasági és mintabeli képletek

Ezeknek a mutatóknak a kiszámításakor fontos különbséget tenni a sokaság és a minta között. A sokaság magában foglalja egy adott csoport összes tagját, míg a mint a sokaság egy részhalmaza. A mintabeli képlet (n - 1) nevezőjének használata – az úgynevezett Bessel-féle korrekció – korrigálja a mintából történő sokasági varianciabecslés inherent torzítását, biztosítva a becslő torzítatlanságát.

Mintabeli variancia

s² = Σ(xᵢ - x̄)² / (n - 1)

Kerüld el az n vs. n-1 csapdát!

Ha mintabeli varianciánál 'n'-t használsz '(n - 1)' helyett, szisztematikusan alábecsülöd a valódi sokasági varianciát. Mindig a szabadságfokkal (df = n - 1) számolj, amikor mintaadatokból következtetsz a sokaság paramétereire!

Mikor használjuk a varianciát, és mikor a szórást?

A variancia és a szórás közötti választás teljes mértékben az elemzési célodtól függ. Ha az adataid szóródását egy nem szakmai közönségnek kell bemutatnod, a szórás a nyerő választás, mert az adatok természetes mértékegységével egyezik meg. Ha viszont köztes statisztikai számításokat végzel – például F-statisztikát számolsz az ANOVA-ban, kockázatot értékelsz a modern portfólióelméletben, vagy hipotézisvizsgálatot végzel –, a variancia matematikailag kézesebb.

Használj varianciát, amikor...

- ANOVA vagy F-teszt végzésekor - Portfóliókockázat számításakor (kovarianciamátrixok) - Elméleti statisztikai bizonyítások során - Gépi tanulási veszteségfüggvények fejlesztésekor (pl. MSE)

Használj szórást, amikor...

- Az adatszóródás publikációkban való jelentésekor - A tapasztalati szabály (68-95-99,7) alkalmazásakor - Minőségbiztosítási kontroll diagramok készítésekor - A változékonyság nem szakmai közönségnek való bemutatásakor

Szórás és variancia számítása Pythonban

A Python `statistics` modulja beépített függvényeket kínál mind a variancia, mind a szórás kiszámítására. E függvények használatakor elengedhetetlen a megfelelő metódus kiválasztása aszerint, hogy az adataid sokaságot vagy mintát képviselnek-e.

python
import statistics

# Mintaadat
data = [14, 18, 12, 15, 11]

# Mintabeli variancia és szórás kiszámítása
sample_var = statistics.variance(data)
sample_sd = statistics.stdev(data)

# Sokasági variancia és szórás kiszámítása
pop_var = statistics.pvariance(data)
pop_sd = statistics.pstdev(data)

print(f"Mintabeli variancia: {sample_var:.2f}")
print(f"Mintabeli szórás: {sample_sd:.2f}")
print(f"Sokasági variancia: {pop_var:.2f}")
print(f"Sokasági szórás: {pop_sd:.2f}")

Gyakran ismételt kérdések

  • Lehet negatív a variancia? Nem, mivel a négyzetes eltérések összege (xᵢ - μ)² mindig nulla vagy pozitív, a variancia sosem lehet negatív.
  • Miért részesítik előnyben a szórást a varianciával szemben a jelentésekben? Azért, mert a szórás mértékegysége megegyezik az átlagéval, így sokkal könnyebb kontextusba helyezni és a nyers adatokkal együtt értelmezni.
  • Ugyanaz-e a variancia és a középeltérés-négyzet (MSE)? Hasonlóak, de az MSE általában a becsült és a tényleges értékek közötti átlagos négyzetes eltérést méri, míg a variancia az átlagtól való szóródást. Ha a becslő maga az átlag, akkor az MSE megegyezik a varianciával.

Further Reading

Sources

References and further authoritative reading used in preparing this article.

  1. Szórás - Wikipédia
  2. NIST/SEMATECH Statisztikai Módszerek Kézikönyve