Statistisk ordliste

Nøglebegreber og definitioner inden for statistik

general

Standardafvigelse (σ / s)

Et mål for mængden af variation eller spredning i et sæt værdier. Det er kvadratroden af variansen og udtrykkes i samme enheder som dataene.

Varians (σ² / s²)

Gennemsnittet af de kvadrerede afvigelser fra gennemsnittet. Varians kvantificerer graden af spredning i et datasæt og er kvadratet af standardafvigelsen.

Gennemsnit (μ / x̄)

Det aritmetiske gennemsnit af et sæt værdier, beregnet ved at summere alle værdier og dividere med antallet. Det repræsenterer den centrale tendens i dataene.

Median

Den midterste værdi i et sorteret datasæt. Hvis der er et lige antal værdier, er medianen gennemsnittet af de to midterste værdier. Den er modstandsdygtig over for outliers.

Typetal

Den værdi, der forekommer hyppigst i et datasæt. Et datasæt kan have ét typetal (unimodalt), flere typetal (multimodalt) eller intet typetal overhovedet.

Variationsbredde

Forskellen mellem den største og mindste værdi i et datasæt. Selvom det er simpelt at beregne, tager det kun de to ekstreme værdier i betragtning og er følsomt over for outliers.

Population

Det komplette sæt af alle individer eller observationer af interesse i en undersøgelse. Populationsparametre betegnes typisk med græske bogstaver (μ, σ).

Stikprøve

En delmængde af en population udvalgt til analyse. Stikprøvestatistikker betegnes typisk med latinske bogstaver (x̄, s) og bruges til at estimere populationsparametre.

Bessels korrektion

Brugen af n−1 i stedet for n i nævneren ved beregning af stikprøvevarians. Denne korrektion giver et forventningsret estimat af populationsvariansen fra en stikprøve.

Normalfordeling

En symmetrisk, klokkeformet sandsynlighedsfordeling, hvor gennemsnit, median og typetal alle er ens. Mange naturfænomener følger en tilnærmelsesvis normalfordeling.

Empirisk regel (68-95-99,7)

For normalfordelte data falder cirka 68 % af værdierne inden for ±1σ, 95 % inden for ±2σ og 99,7 % inden for ±3σ fra gennemsnittet.

Z-score

Antallet af standardafvigelser et datapunkt er fra gennemsnittet, beregnet som Z = (X − μ) / σ. Z-scores muliggør sammenligning af værdier fra forskellige fordelinger.

Standardfejl (SE)

Standardafvigelsen af stikprøvefordelingen af en statistik, oftest gennemsnittet. SE = σ/√n, og falder med stigende stikprøvestørrelse.

Konfidensinterval

Et interval af værdier, der sandsynligvis indeholder den sande populationsparameter med et specificeret konfidensniveau (f.eks. 95 %). Bredere intervaller indikerer mindre præcision.

Outlier

Et datapunkt, der adskiller sig markant fra andre observationer. Almindelige detektionsmetoder inkluderer værdier ud over ±2 eller ±3 standardafvigelser fra gennemsnittet.

Variationskoefficient (CV)

Forholdet mellem standardafvigelsen og gennemsnittet, udtrykt som en procentdel (CV = σ/μ × 100 %). Det muliggør sammenligning af variabilitet mellem datasæt med forskellige skalaer.

Skævhed

Et mål for asymmetrien af en sandsynlighedsfordeling. Positiv skævhed betyder, at halen strækker sig til højre; negativ skævhed betyder, at den strækker sig til venstre.

Kurtosis

Et mål for halernes tyngde i en sandsynlighedsfordeling. Høj kurtosis indikerer tunge haler og en skarp top; lav kurtosis indikerer lette haler og en flad top.

Frihedsgrader (df)

Antallet af uafhængige værdier, der kan variere i en statistisk beregning. For stikprøvens standardafvigelse er df = n − 1, hvilket afspejler Bessels korrektion.

Centrale grænseværdisætning

Siger, at stikprøvefordelingen af stikprøvegennemsnittet nærmer sig en normalfordeling, efterhånden som stikprøvestørrelsen øges, uanset populationens fordeling.

Hypotesetest

En statistisk metode til at træffe beslutninger baseret på data. Den involverer sammenligning af en teststatistik med en kritisk værdi eller p-værdi for at afgøre, om nulhypotesen skal forkastes.

P-værdi

Sandsynligheden for at observere et resultat lige så ekstremt som teststatistikken, forudsat at nulhypotesen er sand. Mindre p-værdier giver stærkere evidens mod nulhypotesen.

Korrelationskoefficient (r)

En værdi mellem −1 og 1, der måler styrken og retningen af det lineære forhold mellem to variable. Værdier tæt på ±1 indikerer et stærkt lineært forhold.

Interkvartilafstand (IQR)

Forskellen mellem den 75. percentil (Q3) og den 25. percentil (Q1). IQR måler spredningen af de midterste 50 % af data og er modstandsdygtig over for outliers.

Percentil

En værdi, under hvilken en given procentdel af observationerne falder. For eksempel er den 90. percentil den værdi, under hvilken 90 % af datapunkterne befinder sig.