Mi a variancia?
Variancia (jele sokaságra σ², mintára s²) a statisztikában az adatok szóródásának mértéke. A négyzetes eltérések átlagát jelenti az átlagtól (μ). Az eltérések négyzetre emelésével a variancia biztosítja, hogy a negatív és pozitív eltérések ne egyenlítsék ki egymást, így valódi szóródásmértéket kapunk. Mivel azonban az eltérések négyzetre vannak emelve, a variancia mértékegysége az eredeti adatok mértékegységének négyzete lesz, ami közvetlenül nehezen értelmezhető.
Sokasági variancia
Mértékegységek
Mi a szórás?
Szórás (jele sokaságra σ, mintára s) a variancia négyzetgyöke. Megmutatja, hogy az egyes adatpontok átlagosan mennyire térnek el az átlagtól. Mivel a variancia négyzetgyökeként kapjuk, a szórás mértékegysége megegyezik az eredeti adatokéval, így a valódi alkalmazásokban sokkal intuitívabb és könnyebben értelmezhető. A statisztikai szóródás leggyakrabban használt mértéke.
Sokasági szórás
Szórás vs. Variancia: A lényegi különbségek
Bár mindkét mutatószám méri az adatpontok átlagtól való szóródását, matematikai kapcsolatuk és gyakorlati hasznosságuk jelentősen eltér. Az alapvető különbség a mértékegységekben és az értelmezhetőségben rejlik. A szórás a variancia négyzetgyöke, ami visszaállítja a szóródásmértéket az adatok eredeti mértékegységére. A variancia, mint négyzetes érték, aránytalanul nagyobb súlyt ad a kiugró értékeknek, így sokkal érzékenyebb a szélsőértékekre.
| Jellemző | Variancia (σ² / s²) | Szórás (σ / s) |
|---|---|---|
| Matematikai alap | A négyzetes eltérések átlaga | A variancia négyzetgyöke |
| Mértékegység | Négyzetes mértékegység (pl. cm², Ft²) | Eredeti mértékegység (pl. cm, Ft) |
| Értelmezhetőség | Absztrakt; nehezen kapcsolható az adatokhoz | Intuitív; közvetlenül kapcsolódik az adatokhoz |
| Érzékenység a kiugró értékekre | Magas (a négyzetre emelés miatt) | Közepes (a négyzetgyök mérsékli a hatást) |
| Elsődleges felhasználási terület | Statisztikai következtetés, ANOVA, Portfólióelmélet | Leíró statisztika, Jelentések, Tapasztalati szabály |
Sokasági és mintabeli képletek
Ezeknek a mutatóknak a kiszámításakor fontos különbséget tenni a sokaság és a minta között. A sokaság magában foglalja egy adott csoport összes tagját, míg a mint a sokaság egy részhalmaza. A mintabeli képlet (n - 1) nevezőjének használata – az úgynevezett Bessel-féle korrekció – korrigálja a mintából történő sokasági varianciabecslés inherent torzítását, biztosítva a becslő torzítatlanságát.
Mintabeli variancia
Kerüld el az n vs. n-1 csapdát!
Mikor használjuk a varianciát, és mikor a szórást?
A variancia és a szórás közötti választás teljes mértékben az elemzési célodtól függ. Ha az adataid szóródását egy nem szakmai közönségnek kell bemutatnod, a szórás a nyerő választás, mert az adatok természetes mértékegységével egyezik meg. Ha viszont köztes statisztikai számításokat végzel – például F-statisztikát számolsz az ANOVA-ban, kockázatot értékelsz a modern portfólióelméletben, vagy hipotézisvizsgálatot végzel –, a variancia matematikailag kézesebb.
Használj varianciát, amikor...
Használj szórást, amikor...
Szórás és variancia számítása Pythonban
A Python `statistics` modulja beépített függvényeket kínál mind a variancia, mind a szórás kiszámítására. E függvények használatakor elengedhetetlen a megfelelő metódus kiválasztása aszerint, hogy az adataid sokaságot vagy mintát képviselnek-e.
import statistics
# Mintaadat
data = [14, 18, 12, 15, 11]
# Mintabeli variancia és szórás kiszámítása
sample_var = statistics.variance(data)
sample_sd = statistics.stdev(data)
# Sokasági variancia és szórás kiszámítása
pop_var = statistics.pvariance(data)
pop_sd = statistics.pstdev(data)
print(f"Mintabeli variancia: {sample_var:.2f}")
print(f"Mintabeli szórás: {sample_sd:.2f}")
print(f"Sokasági variancia: {pop_var:.2f}")
print(f"Sokasági szórás: {pop_sd:.2f}")Gyakran ismételt kérdések
- Lehet negatív a variancia? Nem, mivel a négyzetes eltérések összege (xᵢ - μ)² mindig nulla vagy pozitív, a variancia sosem lehet negatív.
- Miért részesítik előnyben a szórást a varianciával szemben a jelentésekben? Azért, mert a szórás mértékegysége megegyezik az átlagéval, így sokkal könnyebb kontextusba helyezni és a nyers adatokkal együtt értelmezni.
- Ugyanaz-e a variancia és a középeltérés-négyzet (MSE)? Hasonlóak, de az MSE általában a becsült és a tényleges értékek közötti átlagos négyzetes eltérést méri, míg a variancia az átlagtól való szóródást. Ha a becslő maga az átlag, akkor az MSE megegyezik a varianciával.
Further Reading
Sources
References and further authoritative reading used in preparing this article.