Glossário Estatístico

Termos estatísticos fundamentais e as suas definições

general

Desvio-Padrão (σ / s)

Uma medida da quantidade de variação ou dispersão num conjunto de valores. É a raiz quadrada da variância e é expressa nas mesmas unidades que os dados.

Variância (σ² / s²)

A média dos quadrados das diferenças em relação à média. A variância quantifica o grau de dispersão num conjunto de dados e é o quadrado do desvio-padrão.

Média (μ / x̄)

A média aritmética de um conjunto de valores, calculada somando todos os valores e dividindo pela contagem. Representa a tendência central dos dados.

Mediana

O valor central num conjunto de dados ordenado. Se houver um número par de valores, a mediana é a média dos dois valores centrais. É resistente a valores atípicos.

Moda

O valor que aparece com mais frequência num conjunto de dados. Um conjunto de dados pode ter uma moda (unimodal), várias modas (multimodal) ou nenhuma moda.

Amplitude

A diferença entre o maior e o menor valor num conjunto de dados. Embora simples de calcular, considera apenas os dois valores extremos e é sensível a valores atípicos.

População

O conjunto completo de todos os indivíduos ou observações de interesse num estudo. Os parâmetros populacionais são tipicamente representados por letras gregas (μ, σ).

Amostra

Um subconjunto de uma população selecionado para análise. As estatísticas amostrais são tipicamente representadas por letras latinas (x̄, s) e são usadas para estimar os parâmetros populacionais.

Correção de Bessel

O uso de n−1 em vez de n no denominador ao calcular a variância amostral. Esta correção fornece uma estimativa não enviesada da variância populacional a partir de uma amostra.

Distribuição Normal

Uma distribuição de probabilidade simétrica, em forma de sino, onde a média, a mediana e a moda são todas iguais. Muitos fenómenos naturais seguem aproximadamente uma distribuição normal.

Regra Empírica (68-95-99,7)

Para dados normalmente distribuídos, aproximadamente 68% dos valores situam-se dentro de ±1σ, 95% dentro de ±2σ e 99,7% dentro de ±3σ da média.

Z-Score

O número de desvios-padrão a que um ponto de dados se encontra da média, calculado como Z = (X − μ) / σ. Os z-scores permitem a comparação de valores de diferentes distribuições.

Erro-Padrão (SE)

O desvio-padrão da distribuição amostral de uma estatística, mais comummente a média. SE = σ/√n, diminuindo à medida que o tamanho da amostra aumenta.

Intervalo de Confiança

Um intervalo de valores que provavelmente contém o verdadeiro parâmetro populacional com um nível de confiança especificado (ex.: 95%). Intervalos mais largos indicam menor precisão.

Valor Atípico

Um ponto de dados significativamente diferente das outras observações. Métodos de deteção comuns incluem valores além de ±2 ou ±3 desvios-padrão da média.

Coeficiente de Variação (CV)

A razão entre o desvio-padrão e a média, expressa em percentagem (CV = σ/μ × 100%). Permite a comparação da variabilidade entre conjuntos de dados com escalas diferentes.

Assimetria

Uma medida da assimetria de uma distribuição de probabilidade. Assimetria positiva significa que a cauda se estende para a direita; assimetria negativa significa que se estende para a esquerda.

Curtose

Uma medida do peso das caudas de uma distribuição de probabilidade. Curtose elevada indica caudas pesadas e um pico acentuado; curtose baixa indica caudas leves e um pico achatado.

Graus de Liberdade (df)

O número de valores independentes que podem variar num cálculo estatístico. Para o desvio-padrão amostral, df = n − 1, refletindo a correção de Bessel.

Teorema do Limite Central

Afirma que a distribuição amostral da média amostral se aproxima de uma distribuição normal à medida que o tamanho da amostra aumenta, independentemente da distribuição da população.

Teste de Hipóteses

Um método estatístico para tomar decisões com base em dados. Envolve a comparação de uma estatística de teste com um valor crítico ou valor-p para determinar se se deve rejeitar a hipótese nula.

Valor-P

A probabilidade de observar um resultado tão extremo como a estatística de teste, assumindo que a hipótese nula é verdadeira. Valores-p menores fornecem evidências mais fortes contra a hipótese nula.

Coeficiente de Correlação (r)

Um valor entre −1 e 1 que mede a força e a direção da relação linear entre duas variáveis. Valores próximos de ±1 indicam uma relação linear forte.

Amplitude Interquartil (IQR)

A diferença entre o percentil 75 (Q3) e o percentil 25 (Q1). O IQR mede a dispersão dos 50% centrais dos dados e é resistente a valores atípicos.

Percentil

Um valor abaixo do qual cai uma determinada percentagem de observações. Por exemplo, o percentil 90 é o valor abaixo do qual se encontram 90% dos pontos de dados.