A szóródás két mérési módja
Mind a terjedelem, mind a szórás az adatok szóródását méri, de alapvetően különböző aspektusokat ragadnak meg. A helyes választás elengedhetetlen a megfelelő adatelemzéshez.
A terjedelem a szélsőértékekről tájékoztat – milyen távol vannak egymástól a legmagasabb és a legalacsonyabb értékek. A szórás az átlag körüli tipikus szóródást mutatja meg. Mindkettő hasznos, de eltérő célokra.
Gyors döntési útmutató
Használj terjedelmet, ha a szélsőértékek fontosak (minőségellenőrzési határok, hőmérséklet-ingadozás). Használj szórást, ha a tipikus változékonyságra vagy kíváncsi és statisztikai szigorúságra van szükséged.
Definíciók és képletek
Terjedelem
Terjedelem = Maximum - Minimum
A legegyszerűbb szóródási mutató. Csak két értéket vesz figyelembe, az adathalmaz méretétől függetlenül.
Szórás
s = √[Σ(xᵢ - x̄)² / (n-1)]
Minden adatpontot felhasznál az átlagtól való átlagos távolság mérésére.
Közvetlen összehasonlítás
Terjedelem előnyei és hátrányai
Előnyök:
- Rendkívül egyszerű számítás – csak kivonás
- Könnyen érthető és kommunikálható
- Közvetlenül mutatja az adatok kiterjedését
- Hasznos gyors minőségi ellenőrzésekhez
Hátrányok:
- Figyelmen kívül hagyja az összes középső értéket
- Rendkívül érzékeny a kiugró értékekre
- Várhatóan növekszik a mintamérettel
- Statisztikailag nem hatékony
Szórás előnyei és hátrányai
Előnyök:
- Minden adatpontot felhasznál
- Statisztikailag hatékony és stabil
- A mintaméret növekedésével stabil marad
- A haladó statisztika alapja
Hátrányok:
- Kézzel bonyolultabb számítani
- Kevésbé intuitív nem statisztikusoknak
- Elrejtheti a fontos szélsőértékeket
- Kiugró értékek még mindig befolyásolják (helyette használd a MAD-ot)
Mikor melyiket használjuk?
Használd a terjedelmet, ha:
- Gyors, hozzávetőleges becslésre van szükséged a szóródásról
- A szélsőértékek a lényegesek (pl. hőmérséklet-tartomány HVAC-tervezéshez)
- Az adatok tiszták, kiugró értékek nélkül
- Statisztikában járatlan közönséggel kommunikálsz
- A mintaméret kicsi és állandó (minden összehasonlításnál azonos)
Használd a szórást, ha:
- Statisztikai elemzést vagy hipotézisvizsgálatot végzel
- Különböző mintaméretű adathalmazok változékonyságát hasonlítod össze
- Konfidenciaintervallumokat vagy p-értékeket számítasz
- A tipikus változékonyság érdekel, nem a szélsőértékek
- Az adatok kiugró értékeket tartalmazhatnak, amelyek nem dominálhatják a mutatót
Gyakorlati példák
Példa: Napi hőmérsékletek
Adatok: 22°C, 24°C, 23°C, 23°C, 24°C, 22°C, 23°C
Terjedelem: 24 - 22 = 2°C (a hőmérséklet-ingadozás)
Szórás: 0,82°C (a tipikus napi változékonyság)
Mindkettő hasznos – a terjedelem a légkondicionáló kapacitáshoz, a szórás a komfortkonzisztenciához.
Példa: Vizsgaeredmények kiugró értékkel
Adatok: 85, 88, 87, 86, 89, 42 (egy diák nem tanult)
Terjedelem: 89 - 42 = 47 pont (a kiugró érték uralja!)
Szórás: 17,4 pont (még mindig érintett, de kevésbé)
A terjedelem itt félrevezető. Fontold meg a szórás használatát vagy a kiugró érték eltávolítását.
Haladó szempontok
A terjedelem és a szórás kapcsolata: Normális eloszlású adatoknál a terjedelem ≈ 4-6 × szórás a jellemző mintaméreteknél. Ez lehetővé teszi a hozzávetőleges átváltást közöttük.
Interkvartilis terjedelem (IQR): Egy kompromisszumos megoldás, amely a Q3 - Q1 értéket használja a max - min helyett. Robusztusabb, mint a terjedelem, és egyszerűbb, mint a szórás.
Legjobb gyakorlat
Ha lehetséges, közöld mindkét mutatót. „A hőmérséklet-terjedelem 15°C volt (szórás = 4,2°C)” – ez teljes körű információt ad az olvasóknak mind a szélsőértékekről, mind a tipikus változékonyságról.