Wat is standaarddeviatie?
Standaarddeviatie is een statistische maat die de hoeveelheid variatie of spreiding in een set gegevenswaarden kwantificeert. Een lage standaarddeviatie geeft aan dat de datapunten dicht bij het gemiddelde (verwachtingswaarde) van de set liggen, terwijl een hoge standaarddeviatie aangeeft dat de datapunten over een breder bereik verspreid zijn. Het wordt weergegeven door de Griekse letter σ (sigma) voor populaties en s voor steekproeven, en is een van de meest fundamentele concepten in de beschrijvende statistiek.
Kerndefinitie
Populatie- versus steekproefstandaarddeviatie
Voordat je de standaarddeviatie berekent, moet je bepalen of je data een volledige populatie of een steekproef van een populatie vertegenwoordigt. Een populatie omvat alle leden van een gespecificeerde groep, terwijl een steekproef een representatieve subset van die groep is. Voor het berekenen van de standaarddeviatie van een steekproef is een wiskundige aanpassing nodig: je gebruikt n - 1 (vrijheidsgraden, of df) in plaats van N om ervoor te zorgen dat het resultaat een zuivere schatter van de populatievariantie is.
Populatiestandaarddeviatie
Steekproefstandaarddeviatie
De formule voor standaarddeviatie uitgelegd
De formules voor standaarddeviatie zijn gebaseerd op het eerst berekenen van de variantie, en vervolgens het nemen van de vierkantswortel. Deze stap met de worteltrekking is cruciaal, omdat de maat van spreiding hierdoor terugkeert naar de oorspronkelijke eenheden van de data. De belangrijkste componenten zijn xᵢ (elke individuele waarde), μ of x̄ (het populatie- of steekproefgemiddelde), en N of n (het totale aantal waarden).
Populatie SD
Steekproef SD
Stap-voor-stap rekenvoorbeeld
Laten we de steekproefstandaarddeviatie berekenen voor een kleine dataset met cijfers: [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]. Als we de formule stap voor stap volgen, wordt duidelijk hoe de variantie zich opbouwt voordat we de uiteindelijke vierkantswortel nemen.
Bereken het gemiddelde (x̄)
Trek het gemiddelde af en kwadrateer het resultaat
Tel de gekwadrateerde verschillen bij elkaar op
Deel door n - 1 (vrijheidsgraden)
Neem de vierkantswortel
Standaarddeviatie berekenen in Python
Het handmatig berekenen van de standaarddeviatie is foutgevoelig, zeker bij grote datasets. In de praktijk gebruiken statistici en data scientists programmeertalen zoals Python om dit direct te berekenen met behulp van ingebouwde bibliotheken.
import statistics
data = [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]
# Bereken steekproefstandaarddeviatie (standaard)
sample_sd = statistics.stdev(data)
print(f"Sample SD: {sample_sd:.2f}")
# Bereken populatiestandaarddeviatie
pop_sd = statistics.pstdev(data)
print(f"Population SD: {pop_sd:.2f}")De empirische regel en standaarddeviatie
Wanneer data een normale verdeling (klokkromme) volgt, wordt de standaarddeviatie enorm voorspellend. De empirische regel, ook wel de 68-95-99.7 regel genoemd, stelt dat vrijwel alle data binnen drie standaarddeviaties van het gemiddelde zal vallen. Hierdoor kunnen analisten snel uitschieters identificeren en de kans op een specifieke waarneming begrijpen.
| Interval vanaf gemiddelde | Percentage data | Toepassing |
|---|---|---|
| ±1σ | 68.27% | Het identificeren van typische, dagelijkse waarden |
| ±2σ | 95.45% | Het bepalen van betrouwbaarheidsintervallen |
| ±3σ | 99.73% | Het opsporen van extreme uitschieters |
Standaarddeviatie versus variantie
Variantie en standaarddeviatie zijn nauw verwante spreidingsmaten. Variantie (σ² of s²) is het gemiddelde van de gekwadrateerde verschillen ten opzichte van het gemiddelde, terwijl standaarddeviatie de vierkantswortel van de variantie is. Omdat variantie wordt uitgedrukt in gekwadrateerde eenheden (bijvoorbeeld vierkante euro's, vierkante centimeters), kan deze moeilijk te interpreteren zijn in de context van de oorspronkelijke data. Standaarddeviatie lost dit op door de maat terug te brengen naar de oorspronkelijke eenheden.
Rapporteer je data
Veelvoorkomende valkuilen om te vermijden
Hoewel standaarddeviatie een krachtig hulpmiddel is, wordt het vaak verkeerd gebruikt. Het verkeerd toepassen van de formules of het verkeerd begrijpen van wat de waarde vertegenwoordigt, kan leiden tot gebrekkige data-analyse en onjuiste conclusies.
- De populatieformule gebruiken voor een steekproef: Vergeten om n - 1 te gebruiken voor steekproeven verlaagt de berekende spreiding kunstmatig, waardoor de werkelijke populatievariantie wordt onderschat.
- SD toepassen op niet-normale verdelingen: De empirische regel geldt alleen voor normale verdelingen. Bij sterk scheve data weerspiegelt de SD de spreiding mogelijk niet nauwkeurig.
- SD verwarren met de standaardfout: De standaardfout (standard error) meet de precisie van een geschat steekproefgemiddelde, terwijl standaarddeviatie de spreiding van de onderliggende data zelf meet.
Pas op voor uitschieters
Further Reading
Sources
References and further authoritative reading used in preparing this article.