Mik a kiugró értékek?
A kiugró értékek olyan adatpontok, amelyek jelentősen eltérnek a többi megfigyeléstől. Okozhatja mérési hiba, adatbeviteli hiba, vagy valóban szokatlan, vizsgálatot érdemlő esetek lehetnek.
A narancssárga pont a (10, 50) koordinátánál kiugró érték
A 3-szigma szabály
Normális eloszlású adatok esetén az átlagtól 3 szórásnyi távolságon túli pontokat kiugró értékeknek tekintjük. Véletlenül az esetek kevesebb mint 0,3%-ában fordulnak elő.
Kiugró, ha
x < μ - 3σ VAGY x > μ + 3σ
Példa
Ha a vizsgaeredmények μ = 75 és σ = 10:
- Alsó határ: 75 - 30 = 45
- Felső határ: 75 + 30 = 105
- Bármely 45 alatti vagy 105 feletti pontszám kiugró érték
Z-érték módszer
Számítsd ki minden adatpont z-értékét. Ha |z| > 3 (vagy néha 2,5), akkor kiugró értékről beszélünk.
Küszöbérték-lehetőségek
- |z| > 3: Konzervatív (kevesebb kiugró értéket talál)
- |z| > 2,5: Mérsékelt
- |z| > 2: Liberális (több kiugró értéket talál)
IQR-módszer (alternatíva)
Az interkvartilis terjedelem (IQR) módszer robusztusabb a kiugró értékekkel szemben, mert nem használja az átlagot és a szórást.
1
1. lépés
Keresd meg Q1-et (25. percentilis) és Q3-at (75. percentilis)
2
2. lépés
Számítsd ki: IQR = Q3 - Q1
3
3. lépés
Alsó korlát = Q1 - 1,5 × IQR
4
4. lépés
Felső korlát = Q3 + 1,5 × IQR
5
5. lépés
A korlátokon kívüli pontok kiugró értékek
Kiugró értékek kezelése
Ne töröld automatikusan!
A kiugró értékek nem mindig hibák. Eltávolításuk előtt vizsgáld meg:
- Adatbeviteli vagy mérési hiba-e?
- Valódi szélsőséges érték-e?
- Fontos szélső esetet képvisel-e?
Mikor távolítsd el
- Igazolt adatbeviteli hibák
- Mérőműszer meghibásodása
- Az értékek lehetséges tartományán kívül esik
Mikor tartsd meg
- Valós változékonyságot képvisel
- Fontos az elemzésed szempontjából
- Eltávolítása torzítaná az eredményeket