Statistische Woordenlijst

Belangrijke statistische termen en definities

general

Standaardafwijking (σ / s)

Een maat voor de hoeveelheid variatie of spreiding in een reeks waarden. Het is de vierkantswortel van de variantie en wordt uitgedrukt in dezelfde eenheden als de gegevens.

Variantie (σ² / s²)

Het gemiddelde van de gekwadrateerde afwijkingen ten opzichte van het gemiddelde. Variantie kwantificeert de mate van spreiding in een dataset en is het kwadraat van de standaardafwijking.

Gemiddelde (μ / x̄)

Het rekenkundig gemiddelde van een reeks waarden, berekend door alle waarden op te tellen en te delen door het aantal. Het vertegenwoordigt de centrale tendens van de gegevens.

Mediaan

De middelste waarde in een gesorteerde dataset. Bij een even aantal waarden is de mediaan het gemiddelde van de twee middelste waarden. De mediaan is bestand tegen uitbijters.

Modus

De waarde die het vaakst voorkomt in een dataset. Een dataset kan één modus (unimodaal), meerdere modi (multimodaal) of helemaal geen modus hebben.

Bereik

Het verschil tussen de grootste en kleinste waarden in een dataset. Hoewel eenvoudig te berekenen, houdt het alleen rekening met de twee extreme waarden en is het gevoelig voor uitbijters.

Populatie

De volledige verzameling van alle individuen of waarnemingen van belang in een onderzoek. Populatieparameters worden doorgaans aangeduid met Griekse letters (μ, σ).

Steekproef

Een deelverzameling van een populatie die is geselecteerd voor analyse. Steekproefstatistieken worden doorgaans aangeduid met Latijnse letters (x̄, s) en worden gebruikt om populatieparameters te schatten.

Bessel-correctie

Het gebruik van n−1 in plaats van n in de noemer bij het berekenen van de steekproefvariantie. Deze correctie levert een zuivere schatting van de populatievariantie uit een steekproef.

Normale verdeling

Een symmetrische, klokvormige kansverdeling waarbij het gemiddelde, de mediaan en de modus allemaal gelijk zijn. Veel natuurlijke verschijnselen volgen bij benadering een normale verdeling.

Empirische regel (68-95-99,7)

Voor normaal verdeelde gegevens valt ongeveer 68% van de waarden binnen ±1σ, 95% binnen ±2σ en 99,7% binnen ±3σ van het gemiddelde.

Z-score

Het aantal standaardafwijkingen dat een datapunt van het gemiddelde af ligt, berekend als Z = (X − μ) / σ. Z-scores maken vergelijking van waarden uit verschillende verdelingen mogelijk.

Standaardfout (SE)

De standaardafwijking van de steekproefverdeling van een statistiek, meestal het gemiddelde. SE = σ/√n, afnemend naarmate de steekproefomvang toeneemt.

Betrouwbaarheidsinterval

Een bereik van waarden dat waarschijnlijk de werkelijke populatieparameter bevat met een bepaald betrouwbaarheidsniveau (bijv. 95%). Bredere intervallen duiden op minder precisie.

Uitbijter

Een datapunt dat significant verschilt van andere waarnemingen. Veelgebruikte detectiemethoden omvatten waarden buiten ±2 of ±3 standaardafwijkingen van het gemiddelde.

Variatiecoëfficiënt (CV)

De verhouding van de standaardafwijking tot het gemiddelde, uitgedrukt als percentage (CV = σ/μ × 100%). Hiermee kan de variabiliteit tussen datasets met verschillende schalen worden vergeleken.

Scheefheid

Een maat voor de asymmetrie van een kansverdeling. Positieve scheefheid betekent dat de staart naar rechts uitstrekt; negatieve scheefheid betekent dat deze naar links uitstrekt.

Kurtosis

Een maat voor de staartzwaarte van een kansverdeling. Hoge kurtosis duidt op zware staarten en een scherpe piek; lage kurtosis duidt op lichte staarten en een vlakke piek.

Vrijheidsgraden (df)

Het aantal onafhankelijke waarden dat kan variëren in een statistische berekening. Voor de steekproefstandaardafwijking geldt df = n − 1, als weerspiegeling van de Bessel-correctie.

Centrale limietstelling

Stelt dat de steekproefverdeling van het steekproefgemiddelde een normale verdeling benadert naarmate de steekproefomvang toeneemt, ongeacht de verdeling van de populatie.

Hypothesetoetsing

Een statistische methode voor het nemen van beslissingen op basis van gegevens. Hierbij wordt een toetsingsgrootheid vergeleken met een kritieke waarde of p-waarde om te bepalen of de nulhypothese verworpen moet worden.

P-waarde

De waarschijnlijkheid om een resultaat te observeren dat minstens zo extreem is als de toetsingsgrootheid, ervan uitgaande dat de nulhypothese waar is. Kleinere p-waarden leveren sterker bewijs tegen de nulhypothese.

Correlatiecoëfficiënt (r)

Een waarde tussen −1 en 1 die de sterkte en richting van het lineaire verband tussen twee variabelen meet. Waarden dicht bij ±1 wijzen op een sterk lineair verband.

Interkwartielafstand (IQR)

Het verschil tussen het 75e percentiel (Q3) en het 25e percentiel (Q1). De IQR meet de spreiding van de middelste 50% van de gegevens en is bestand tegen uitbijters.

Percentiel

Een waarde waaronder een bepaald percentage van de waarnemingen valt. Zo is het 90e percentiel de waarde waaronder 90% van de datapunten zich bevindt.