O que é a Variância?
A variância (representada por σ² para uma população e s² para uma amostra) é uma medida estatística da dispersão entre os números num conjunto de dados. Representa a média das diferenças quadráticas em relação à média (μ). Ao elevar os desvios ao quadrado, a variância garante que os desvios negativos e positivos não se anulam mutuamente, fornecendo uma verdadeira medida de dispersão. No entanto, como os desvios são quadráticos, a unidade resultante da variância é o quadrado da unidade original dos dados, tornando-a um pouco abstrata para interpretar diretamente.
Variância Populacional
Unidades de Medida
O que é o Desvio Padrão?
O desvio padrão (representado por σ para uma população e s para uma amostra) é a raiz quadrada da variância. Mede a quantidade média pela qual os pontos de dados individuais se desviam da média. Como é obtido tirando a raiz quadrada da variância, o desvio padrão é expresso nas mesmas unidades dos dados originais, tornando-o muito mais intuitivo e interpretável para aplicações reais. É a medida de dispersão estatística mais amplamente utilizada.
Desvio Padrão Populacional
Desvio Padrão vs Variância: Diferenças Fundamentais
Embora ambas as métricas quantifiquem a dispersão dos pontos de dados em torno da média, a sua relação matemática e utilidade prática diferem significativamente. A diferença fundamental reside nas suas unidades e na interpretabilidade. O desvio padrão é a raiz quadrada da variância, o que devolve a medida de dispersão às unidades originais dos dados. A variância, por ser um valor ao quadrado, pondera desproporcionalmente os valores atípicos (outliers), tornando-a altamente sensível a valores extremos.
| Caraterística | Variância (σ² / s²) | Desvio Padrão (σ / s) |
|---|---|---|
| Base Matemática | Média dos desvios quadráticos | Raiz quadrada da variância |
| Unidades | Unidades quadráticas (ex: cm², €²) | Unidades originais (ex: cm, €) |
| Interpretabilidade | Abstrata; difícil de relacionar com os dados | Intuitiva; corresponde diretamente aos dados |
| Sensibilidade a Outliers | Alta (devido ao quadrado) | Moderada (a raiz quadrada atenua o efeito) |
| Caso de Uso Principal | Inferência estatística, ANOVA, Teoria do Portfólio | Estatística descritiva, Relatórios, Regra empírica |
Fórmulas para População vs Amostra
Ao calcular estas métricas, é necessário distinguir entre uma população e uma amostra. Uma população inclui todos os membros de um grupo especificado, enquanto uma amostra é um subconjunto dessa população. A utilização da fórmula da amostra com um denominador de (n - 1) — conhecida como Correção de Bessel — corrige o viés inerente à estimativa da variância populacional a partir de uma amostra, garantindo que o estimador seja não enviesado.
Variância Amostral
Evite a Armadilha do n vs n-1
Quando Usar Variância vs Desvio Padrão
A escolha entre variância e desvio padrão depende inteiramente do seu objetivo analítico. Se estiver a comunicar a dispersão dos seus dados a um público não técnico, o desvio padrão é a escolha óbvia, pois alinha-se com as unidades naturais dos dados. No entanto, se estiver a realizar cálculos estatísticos intermédios — como calcular estatísticas F em ANOVA, avaliar riscos na teoria moderna do portfólio ou realizar testes de hipóteses — a variância é matematicamente mais conveniente.
Use a Variância Quando...
Use o Desvio Padrão Quando...
Calcular Desvio Padrão e Variância em Python
O módulo `statistics` do Python fornece funções nativas para a variância e para o desvio padrão. Ao utilizar estas funções, é crucial selecionar o método correto com base no facto de os seus dados representarem uma população ou uma amostra.
import statistics
# Sample dataset
data = [14, 18, 12, 15, 11]
# Calculate Sample Variance and SD
sample_var = statistics.variance(data)
sample_sd = statistics.stdev(data)
# Calculate Population Variance and SD
pop_var = statistics.pvariance(data)
pop_sd = statistics.pstdev(data)
print(f"Sample Variance: {sample_var:.2f}")
print(f"Sample SD: {sample_sd:.2f}")
print(f"Population Variance: {pop_var:.2f}")
print(f"Population SD: {pop_sd:.2f}")Perguntas Frequentes
- A variância pode ser negativa? Não, porque a soma dos desvios quadráticos (xᵢ - μ)² é sempre zero ou um valor positivo, a variância nunca pode ser negativa.
- Por que razão o desvio padrão é preferível à variância nos relatórios? O desvio padrão é preferido porque partilha as mesmas unidades que a média, tornando-o muito mais fácil de contextualizar e interpretar em conjunto com os dados brutos.
- A variância é o mesmo que o erro quadrático médio (MSE)? São semelhantes, mas o MSE mede tipicamente a diferença quadrática média entre os valores estimados e o valor real, enquanto a variância mede a dispersão em torno da média. Se o estimador for a média, o MSE é igual à variância.
Further Reading
Sources
References and further authoritative reading used in preparing this article.