Σ
SDCalc
BeginnerFundamentals·9 min

Wat is standaarddeviatie? Definitie, formule & voorbeelden

Leer wat standaarddeviatie is, hoe je deze berekent voor steekproeven en populaties, en waarom het cruciaal is voor data-analyse. Beheers de formules vandaag nog.

By Standard Deviation Calculator Team · Data Science Team·Published

Wat is standaarddeviatie?

Standaarddeviatie is een statistische maat die de hoeveelheid variatie of spreiding in een set gegevenswaarden kwantificeert. Een lage standaarddeviatie geeft aan dat de datapunten dicht bij het gemiddelde (verwachtingswaarde) van de set liggen, terwijl een hoge standaarddeviatie aangeeft dat de datapunten over een breder bereik verspreid zijn. Het wordt weergegeven door de Griekse letter σ (sigma) voor populaties en s voor steekproeven, en is een van de meest fundamentele concepten in de beschrijvende statistiek.

Kerndefinitie

Standaarddeviatie meet de typische afstand van elk gegevenspunt tot het gemiddelde. Het vertelt je gemiddeld genomen hoeveel je data afwijkt van het midden.

Populatie- versus steekproefstandaarddeviatie

Voordat je de standaarddeviatie berekent, moet je bepalen of je data een volledige populatie of een steekproef van een populatie vertegenwoordigt. Een populatie omvat alle leden van een gespecificeerde groep, terwijl een steekproef een representatieve subset van die groep is. Voor het berekenen van de standaarddeviatie van een steekproef is een wiskundige aanpassing nodig: je gebruikt n - 1 (vrijheidsgraden, of df) in plaats van N om ervoor te zorgen dat het resultaat een zuivere schatter van de populatievariantie is.

Populatiestandaarddeviatie

Gebruikt wanneer je data hebt voor de hele groep. Aangeduid met σ. De noemer in de variantieformule is N (de totale populatieomvang).

Steekproefstandaarddeviatie

Gebruikt wanneer je een subset van de groep hebt. Aangeduid met s. De noemer in de variantieformule is n - 1 (steekproefomvang min één) om vertekening te corrigeren.

De formule voor standaarddeviatie uitgelegd

De formules voor standaarddeviatie zijn gebaseerd op het eerst berekenen van de variantie, en vervolgens het nemen van de vierkantswortel. Deze stap met de worteltrekking is cruciaal, omdat de maat van spreiding hierdoor terugkeert naar de oorspronkelijke eenheden van de data. De belangrijkste componenten zijn xᵢ (elke individuele waarde), μ of (het populatie- of steekproefgemiddelde), en N of n (het totale aantal waarden).

Populatie SD

σ = √[ Σ(xᵢ - μ)² / N ]

Steekproef SD

s = √[ Σ(xᵢ - x̄)² / (n - 1) ]

Stap-voor-stap rekenvoorbeeld

Laten we de steekproefstandaarddeviatie berekenen voor een kleine dataset met cijfers: [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]. Als we de formule stap voor stap volgen, wordt duidelijk hoe de variantie zich opbouwt voordat we de uiteindelijke vierkantswortel nemen.

1

Bereken het gemiddelde (x̄)

Tel alle waarden bij elkaar op en deel door het aantal: (4+8+6+5+3+2+8+9+2+5) / 10 = 52 / 10 = 5.2
2

Trek het gemiddelde af en kwadrateer het resultaat

Zoek voor elke waarde het kwadratische verschil: (4-5.2)² = 1.44, (8-5.2)² = 7.84, (6-5.2)² = 0.64, enz.
3

Tel de gekwadrateerde verschillen bij elkaar op

Voeg alle gekwadrateerde resultaten samen: 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04 = 57.6
4

Deel door n - 1 (vrijheidsgraden)

Deel de som door de steekproefomvang min één: 57.6 / (10 - 1) = 57.6 / 9 = 6.4. Dit is de steekproefvariantie (σ²).
5

Neem de vierkantswortel

Neem de wortel van de variantie: √6.4 ≈ 2.53. De steekproefstandaarddeviatie is 2.53.

Standaarddeviatie berekenen in Python

Het handmatig berekenen van de standaarddeviatie is foutgevoelig, zeker bij grote datasets. In de praktijk gebruiken statistici en data scientists programmeertalen zoals Python om dit direct te berekenen met behulp van ingebouwde bibliotheken.

python
import statistics

data = [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]

# Bereken steekproefstandaarddeviatie (standaard)
sample_sd = statistics.stdev(data)
print(f"Sample SD: {sample_sd:.2f}")

# Bereken populatiestandaarddeviatie
pop_sd = statistics.pstdev(data)
print(f"Population SD: {pop_sd:.2f}")

De empirische regel en standaarddeviatie

Wanneer data een normale verdeling (klokkromme) volgt, wordt de standaarddeviatie enorm voorspellend. De empirische regel, ook wel de 68-95-99.7 regel genoemd, stelt dat vrijwel alle data binnen drie standaarddeviaties van het gemiddelde zal vallen. Hierdoor kunnen analisten snel uitschieters identificeren en de kans op een specifieke waarneming begrijpen.

Interval vanaf gemiddeldePercentage dataToepassing
±1σ68.27%Het identificeren van typische, dagelijkse waarden
±2σ95.45%Het bepalen van betrouwbaarheidsintervallen
±3σ99.73%Het opsporen van extreme uitschieters

Standaarddeviatie versus variantie

Variantie en standaarddeviatie zijn nauw verwante spreidingsmaten. Variantie (σ² of s²) is het gemiddelde van de gekwadrateerde verschillen ten opzichte van het gemiddelde, terwijl standaarddeviatie de vierkantswortel van de variantie is. Omdat variantie wordt uitgedrukt in gekwadrateerde eenheden (bijvoorbeeld vierkante euro's, vierkante centimeters), kan deze moeilijk te interpreteren zijn in de context van de oorspronkelijke data. Standaarddeviatie lost dit op door de maat terug te brengen naar de oorspronkelijke eenheden.

Rapporteer je data

Rapporteer altijd de standaarddeviatie samen met het gemiddelde bij het beschrijven van je data. Omdat de SD in dezelfde eenheden wordt uitgedrukt als het gemiddelde (bijvoorbeeld euro's, centimeters, kilogrammen), biedt het een intuïtieve maat voor spreiding die je publiek direct kan begrijpen.

Veelvoorkomende valkuilen om te vermijden

Hoewel standaarddeviatie een krachtig hulpmiddel is, wordt het vaak verkeerd gebruikt. Het verkeerd toepassen van de formules of het verkeerd begrijpen van wat de waarde vertegenwoordigt, kan leiden tot gebrekkige data-analyse en onjuiste conclusies.

  • De populatieformule gebruiken voor een steekproef: Vergeten om n - 1 te gebruiken voor steekproeven verlaagt de berekende spreiding kunstmatig, waardoor de werkelijke populatievariantie wordt onderschat.
  • SD toepassen op niet-normale verdelingen: De empirische regel geldt alleen voor normale verdelingen. Bij sterk scheve data weerspiegelt de SD de spreiding mogelijk niet nauwkeurig.
  • SD verwarren met de standaardfout: De standaardfout (standard error) meet de precisie van een geschat steekproefgemiddelde, terwijl standaarddeviatie de spreiding van de onderliggende data zelf meet.

Pas op voor uitschieters

Standaarddeviatie is zeer gevoelig voor extreme uitschieters. Omdat de formule de verschillen met het gemiddelde kwadrateert, kan één enorme uitschieter de standaarddeviatie disproportioneel opblazen, waardoor de data variabeler lijkt dan deze in werkelijkheid is.

Further Reading

Sources

References and further authoritative reading used in preparing this article.

  1. Wikipedia: Standaarddeviatie
  2. NIST/SEMATECH e-Handboek voor Statistische Methoden
  3. Khan Academy: Statistiek en Kansrekening