Σ
SDCalc
IntermediarAplicații·9 min

Detectarea valorilor aberante cu deviația standard

Învață cum să identifici valorile aberante din datele tale folosind deviația standard. Stăpânește regula 3-sigma, metoda IQR și înțelege când ar trebui eliminate valorile aberante.

Ce sunt valorile aberante?

Valorile aberante sunt puncte de date care diferă semnificativ de celelalte observații. Pot fi cauzate de erori de măsurare, greșeli de introducere a datelor sau pot reprezenta cazuri cu adevărat neobișnuite care merită investigate.

Punctul portocaliu de la (10, 50) este o valoare aberantă

Regula 3-Sigma

Pentru date distribuite normal, punctele dincolo de 3 deviații standard de la medie sunt considerate valori aberante. Acestea apar mai puțin de 0,3% din timp din întâmplare.

Valoare aberantă dacă

x < μ - 3σ OR x > μ + 3σ

Exemplu

Dacă notele la test au μ = 75 și σ = 10: - Limita inferioară: 75 - 30 = 45 - Limita superioară: 75 + 30 = 105 - Orice notă sub 45 sau peste 105 este o valoare aberantă

Metoda scorului Z

Calculează scorul z pentru fiecare punct de date. Dacă |z| > 3 (sau uneori 2,5), este o valoare aberantă.

Scor Z

z = (x - μ) / σ

Opțiuni de prag

- |z| > 3: Conservator (detectează mai puține valori aberante) - |z| > 2,5: Moderat - |z| > 2: Liberal (detectează mai multe valori aberante)

Metoda IQR (alternativă)

Metoda intervalului intercuartilic (IQR) este mai robustă la valori aberante deoarece nu folosește media sau deviația standard.

1

Pasul 1

Găsește Q1 (percentila 25) și Q3 (percentila 75)
2

Pasul 2

Calculează IQR = Q3 - Q1
3

Pasul 3

Limita inferioară = Q1 - 1,5 × IQR
4

Pasul 4

Limita superioară = Q3 + 1,5 × IQR
5

Pasul 5

Punctele din afara limitelor sunt valori aberante

Gestionarea valorilor aberante

Nu le șterge automat!

Valorile aberante nu sunt întotdeauna erori. Înainte de a le elimina, investighează: - Este o eroare de introducere a datelor sau de măsurare? - Este o valoare extremă autentică? - Reprezintă un caz limită important?

Când să elimini

- Erori confirmate de introducere a datelor - Defecțiune a echipamentului de măsurare - În afara intervalului posibil de valori

Când să păstrezi

- Reprezintă variabilitate reală - Important pentru analiză - Eliminarea ar deforma rezultatele