Σ
SDCalc
IntermédioAplicações·9 min

Detetar Outliers com o Desvio-Padrão

Aprende a identificar outliers nos teus dados utilizando o desvio-padrão. Domina a regra dos 3 sigma, o método IQR e compreende quando os outliers devem ser removidos.

O que São Outliers?

Outliers são pontos de dados que diferem significativamente das outras observações. Podem ser causados por erros de medição, erros na introdução de dados ou podem representar casos genuinamente invulgares que merecem investigação.

O ponto laranja em (10, 50) é um outlier

A Regra dos 3 Sigma

Para dados com distribuição normal, pontos para além de 3 desvios-padrão da média são considerados outliers. Ocorrem em menos de 0,3% das vezes por acaso.

Outlier se

x < μ - 3σ OR x > μ + 3σ

Exemplo

Se as notas de um exame têm μ = 75 e σ = 10: - Limite inferior: 75 - 30 = 45 - Limite superior: 75 + 30 = 105 - Qualquer nota abaixo de 45 ou acima de 105 é um outlier

Método do Z-Score

Calcula o z-score de cada ponto de dados. Se |z| > 3 (ou por vezes 2,5), é um outlier.

Z-Score

z = (x - μ) / σ

Opções de Limiar

- |z| > 3: Conservador (deteta menos outliers) - |z| > 2,5: Moderado - |z| > 2: Liberal (deteta mais outliers)

Método IQR (Alternativa)

O método da Amplitude Interquartil (IQR) é mais robusto a outliers porque não utiliza a média nem o desvio-padrão.

1

Passo 1

Encontrar Q1 (percentil 25) e Q3 (percentil 75)
2

Passo 2

Calcular IQR = Q3 - Q1
3

Passo 3

Barreira inferior = Q1 - 1,5 × IQR
4

Passo 4

Barreira superior = Q3 + 1,5 × IQR
5

Passo 5

Pontos fora das barreiras são outliers

Como Tratar Outliers

Não Elimines Automaticamente!

Os outliers nem sempre são erros. Antes de os remover, investiga: - É um erro de introdução de dados ou de medição? - É um valor extremo genuíno? - Representa um caso limite importante?

Quando Remover

- Erros confirmados na introdução de dados - Avaria no equipamento de medição - Fora do intervalo de valores possíveis

Quando Manter

- Representa variabilidade real - Importante para a tua análise - Remover enviesaria os resultados