Σ
SDCalc
BegynderFundamentals·9 min

Hvad er standardafvigelse? Definition, formel og eksempler

Lær hvad standardafvigelse er, hvordan du beregner den for stikprøver og populationer, og hvorfor den er afgørende for dataanalyse. Mestr formlerne i dag.

By Standard Deviation Calculator Team · Data Science Team·Published

Hvad er standardafvigelse?

Standardafvigelse er et statistisk mål, der kvantificerer omfanget af variation eller spredning i et sæt dataværdier. En lav standardafvigelse indikerer, at datapunkterne typisk ligger tæt på middelværdien (den forventede værdi) af sættet, mens en høj standardafvigelse indikerer, at datapunkterne er spredt over et bredere interval. Det repræsenteres med det græske bogstav σ (sigma) for populationer og s for stikprøver og er et af de mest fundamentale begreber i deskriptiv statistik.

Kerndefinition

Standardafvigelse måler den typiske afstand fra hvert datapunkt til middelværdien. Den fortæller dig i gennemsnit, hvor meget dine data afviger fra midten.

Population vs. stikprøve-standardafvigelse

Før du beregner standardafvigelsen, skal du afgøre, om dine data repræsenterer en hel population eller en stikprøve af en population. En population omfatter alle medlemmer af en specificeret gruppe, mens en stikprøve er en repræsentativ delmængde af denne gruppe. Beregning af standardafvigelsen for en stikprøve kræver en matematisk justering – man bruger n - 1 (frihedsgrader, eller df) i stedet for N – for at sikre, at resultatet er en forventningsret estimator for populationens varians.

Populationens standardafvigelse

Bruges, når du har data for hele gruppen. Betegnes med σ. Nævneren i variansformlen er N (den samlede populationsstørrelse).

Stikprøvens standardafvigelse

Bruges, når du har en delmængde af gruppen. Betegnes med s. Nævneren i variansformlen er n - 1 (stikprøvestørrelse minus én) for at korrigere for bias.

Standardafvigelsens formel forklaret

Formlerne for standardafvigelse bygger på først at beregne variansen og derefter tage kvadratroden. Dette trin med kvadratroden er afgørende, fordi det bringer spredningsmålet tilbage til dataets oprindelige enheder. De vigtigste komponenter er xᵢ (hver individuel værdi), μ eller (populationens eller stikprøvens middelværdi) og N eller n (det samlede antal værdier).

Populationens SD

σ = √[ Σ(xᵢ - μ)² / N ]

Stikprøvens SD

s = √[ Σ(xᵢ - x̄)² / (n - 1) ]

Trin-for-trin beregningseksempel

Lad os beregne stikprøvens standardafvigelse for et lille datasæt med karakterer: [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]. Hvis vi følger formlen trin for trin, kan vi se, hvordan variansen akkumuleres, før vi tager den endelige kvadratrod.

1

Beregn middelværdien (x̄)

Summér alle værdier og divider med antallet: (4+8+6+5+3+2+8+9+2+5) / 10 = 52 / 10 = 5.2
2

Træk middelværdien fra og kvadrér resultatet

Find den kvadrerede differens for hver værdi: (4-5.2)² = 1.44, (8-5.2)² = 7.84, (6-5.2)² = 0.64 osv.
3

Summér de kvadrerede differenser

Læg alle de kvadrerede resultater sammen: 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04 = 57.6
4

Divider med n - 1 (frihedsgrader)

Divider summen med stikprøvestørrelsen minus én: 57.6 / (10 - 1) = 57.6 / 9 = 6.4. Dette er stikprøvens varians (σ²).
5

Tag kvadratroden

Find kvadratroden af variansen: √6.4 ≈ 2.53. Stikprøvens standardafvigelse er 2.53.

Beregning af standardafvigelse i Python

Manuel beregning af standardafvigelse er fejlbehæftet, især med store datasæt. I praksis bruger statistikere og data scientists programmeringssprog som Python til at beregne det lynhurtigt ved hjælp af indbyggede biblioteker.

python
import statistics

data = [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]

# Beregn stikprøvens standardafvigelse (standard)
sample_sd = statistics.stdev(data)
print(f"Sample SD: {sample_sd:.2f}")

# Beregn populationens standardafvigelse
pop_sd = statistics.pstdev(data)
print(f"Population SD: {pop_sd:.2f}")

Den empiriske regel og standardafvigelse

Når data følger en normalfordeling (klokkekurve), bliver standardafvigelsen utroligt forudsigende. Den empiriske regel, også kendt som 68-95-99.7-reglen, fastslår, at næsten alle data vil falde inden for tre standardafvigelser fra middelværdien. Dette gør det muligt for analytikere hurtigt at identificere outliers og forstå sandsynligheden for, at en specifik observation indtræffer.

Interval fra middelværdiProcentdel af dataAnvendelse
±1σ68.27%Identifikation af typiske, daglige værdier
±2σ95.45%Opsætning af konfidensintervaller
±3σ99.73%Påvisning af ekstreme outliers

Standardafvigelse vs. varians

Varians og standardafvigelse er tæt beslægtede mål for spredning. Varians (σ² eller s²) er gennemsnittet af de kvadrerede differenser fra middelværdien, mens standardafvigelse er kvadratroden af variansen. Fordi varians udtrykkes i kvadrerede enheder (f.eks. kvadrerede kroner, kvadrerede centimeter), kan den være svær at fortolke i konteksten af de oprindelige data. Standardafvigelse løser dette ved at konvertere målet tilbage til de oprindelige enheder.

Rapportering af dine data

Rapporter altid standardafvigelsen sammen med middelværdien, når du beskriver dine data. Fordi SD er i de samme enheder som middelværdien (f.eks. kroner, centimeter, kilogram), giver den et intuitivt mål for spredning, som dit publikum umiddelbart kan forstå.

Almindelige faldgruber, du bør undgå

Selvom standardafvigelse er et stærkt værktøj, bliver den ofte brugt forkert. Forkert anvendelse af formlerne eller misforståelse af, hvad værdien repræsenterer, kan føre til fejlbehæftet dataanalyse og forkerte konklusioner.

  • Brug af populationsformlen på en stikprøve: Hvis man glemmer at bruge n - 1 for stikprøver, sænkes den beregnede spredning kunstigt, hvilket underestimerer den sande populationsvarians.
  • Anvendelse af SD på ikke-normale fordelinger: Den empiriske regel gælder kun for normalfordelinger. For stærkt skæve data afspejler SD muligvis ikke spredningen korrekt.
  • Forveksling af SD med standardfejl: Standardfejlen måler præcisionen af et estimat af stikprøvens middelværdi, mens standardafvigelsen måler spredningen af de underliggende data selv.

Pas på outliers

Standardafvigelse er meget følsom over for ekstreme outliers. Fordi formlen kvadrerer differenserne fra middelværdien, kan en enkelt massiv outlier skævvride standardafvigelsen uforholdsmæssigt meget og få dataene til at fremstå mere variable, end de reelt er.

Further Reading

Sources

References and further authoritative reading used in preparing this article.

  1. Wikipedia: Standardafvigelse
  2. NIST/SEMATECH e-Handbook of Statistical Methods
  3. Khan Academy: Statistik og sandsynlighed