Wat is variantie?
Variantie (aangeduid als σ² voor een populatie en s² voor een steekproef) is een statistische maat voor de spreiding tussen getallen in een dataset. Het vertegenwoordigt het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde (μ). Door de afwijkingen te kwadrateren, wordt voorkomen dat negatieve en positieve afwijkingen elkaar opheffen, wat resulteert in een ware spreidingsmaat. Omdat de afwijkingen echter worden gekwadrateerd, is de resulterende eenheid van variantie het kwadraat van de oorspronkelijke eenheid van de data, wat het lastig maakt om direct te interpreteren.
Populatievariantie
Meeteenheden
Wat is standaarddeviatie?
Standaarddeviatie (aangeduid als σ voor een populatie en s voor een steekproef) is de wortel van de variantie. Het meet de gemiddelde afwijking van individuele datapunten ten opzichte van het gemiddelde. Omdat het wordt afgeleid door de wortel te trekken van de variantie, wordt de standaarddeviatie uitgedrukt in dezelfde eenheden als de oorspronkelijke data. Dit maakt het veel intuïtiever en beter te interpreteren voor praktische toepassingen. Het is de meest gebruikte maat voor statistische spreiding.
Populatiestandaarddeviatie
Standaarddeviatie vs variantie: de kernverschillen
Hoewel beide metrieken de spreiding van datapunten rond het gemiddelde kwantificeren, verschillen hun wiskundige relatie en praktische bruikbaarheid aanzienlijk. Het belangrijkste verschil ligt in hun eenheden en interpreteerbaarheid. Standaarddeviatie is de wortel van de variantie, waardoor de spreidingsmaat terugkeert naar de oorspronkelijke eenheden van de data. Variantie, als een gekwadrateerde waarde, geeft onevenredig veel gewicht aan uitschieters, wat het zeer gevoelig maakt voor extreme waarden.
| Kenmerk | Variantie (σ² / s²) | Standaarddeviatie (σ / s) |
|---|---|---|
| Wiskundige basis | Gemiddelde van gekwadrateerde afwijkingen | Wortel van de variantie |
| Eenheden | Kwadraateenheden (bijv. cm², €²) | Oorspronkelijke eenheden (bijv. cm, €) |
| Interpreteerbaarheid | Abstract; lastig te relateren aan data | Intuïtief; direct gekoppeld aan data |
| Gevoeligheid voor uitschieters | Hoog (door kwadrateren) | Gemiddeld (wortel dempt het effect) |
| Primaire toepassing | Statistische inferentie, ANOVA, portefeuilletheorie | Beschrijvende statistiek, Rapportages, Empirische regel |
Populatie- vs steekproefformules
Bij het berekenen van deze metrieken moet je onderscheid maken tussen een populatie en een steekproef. Een populatie omvat alle leden van een specifieke groep, terwijl een steekproef een subset van die populatie is. Het gebruik van de steekproefformule met een noemer van (n - 1) — bekend als de correctie van Bessel — corrigeert de inherente vertekening bij het schatten van de populatievariantie uit een steekproef, waardoor de schatter zuiver (onvertekend) is.
Steekproefvariantie
Vermijd de valkuil van n vs n-1
Wanneer gebruik je variantie of standaarddeviatie?
De keuze tussen variantie en standaarddeviatie hangt volledig af van je analytische doel. Als je de spreiding van je data wilt communiceren naar een niet-technisch publiek, is standaarddeviatie de duidelijke winnaar omdat het overeenkomt met de natuurlijke eenheden van de data. Als je echter tussentijdse statistische berekeningen uitvoert — zoals het berekenen van F-statistieken in ANOVA, het beoordelen van risico's in moderne portefeuilletheorie of het uitvoeren van hypothesetoetsen — is variantie wiskundig gezien handiger.
Gebruik variantie wanneer...
Gebruik standaarddeviatie wanneer...
Standaarddeviatie en variantie berekenen in Python
De `statistics` module van Python biedt ingebouwde functies voor zowel variantie als standaarddeviatie. Bij het gebruik van deze functies is het cruciaal om de juiste methode te kiezen op basis van of je data een populatie of een steekproef vertegenwoordigt.
import statistics
# Steekproef dataset
data = [14, 18, 12, 15, 11]
# Bereken steekproefvariantie en standaarddeviatie
sample_var = statistics.variance(data)
sample_sd = statistics.stdev(data)
# Bereken populatievariantie en standaarddeviatie
pop_var = statistics.pvariance(data)
pop_sd = statistics.pstdev(data)
print(f"Sample Variance: {sample_var:.2f}")
print(f"Sample SD: {sample_sd:.2f}")
print(f"Population Variance: {pop_var:.2f}")
print(f"Population SD: {pop_sd:.2f}")Veelgestelde vragen
- Kan variantie negatief zijn? Nee, omdat de som van de gekwadrateerde afwijkingen (xᵢ - μ)² altijd nul of positief is, kan variantie nooit negatief zijn.
- Waarom wordt standaarddeviatie verkozen boven variantie bij rapportages? Standaarddeviatie heeft de voorkeur omdat het dezelfde eenheden deelt als het gemiddelde, wat het veel makkelijker maakt om het in context te plaatsen en te interpreteren naast de ruwe data.
- Is variantie hetzelfde als de gemiddelde kwadratische fout (MSE)? Ze lijken op elkaar, maar MSE meet doorgaans het gemiddelde kwadratische verschil tussen geschatte waarden en de werkelijke waarde, terwijl variantie de spreiding rond het gemiddelde meet. Als de schatter het gemiddelde is, is MSE gelijk aan de variantie.
Further Reading
Sources
References and further authoritative reading used in preparing this article.