Hvad er standardafvigelse?
Standardafvigelse er et statistisk mål, der kvantificerer omfanget af variation eller spredning i et sæt dataværdier. En lav standardafvigelse indikerer, at datapunkterne typisk ligger tæt på middelværdien (den forventede værdi) af sættet, mens en høj standardafvigelse indikerer, at datapunkterne er spredt over et bredere interval. Det repræsenteres med det græske bogstav σ (sigma) for populationer og s for stikprøver og er et af de mest fundamentale begreber i deskriptiv statistik.
Kerndefinition
Population vs. stikprøve-standardafvigelse
Før du beregner standardafvigelsen, skal du afgøre, om dine data repræsenterer en hel population eller en stikprøve af en population. En population omfatter alle medlemmer af en specificeret gruppe, mens en stikprøve er en repræsentativ delmængde af denne gruppe. Beregning af standardafvigelsen for en stikprøve kræver en matematisk justering – man bruger n - 1 (frihedsgrader, eller df) i stedet for N – for at sikre, at resultatet er en forventningsret estimator for populationens varians.
Populationens standardafvigelse
Stikprøvens standardafvigelse
Standardafvigelsens formel forklaret
Formlerne for standardafvigelse bygger på først at beregne variansen og derefter tage kvadratroden. Dette trin med kvadratroden er afgørende, fordi det bringer spredningsmålet tilbage til dataets oprindelige enheder. De vigtigste komponenter er xᵢ (hver individuel værdi), μ eller x̄ (populationens eller stikprøvens middelværdi) og N eller n (det samlede antal værdier).
Populationens SD
Stikprøvens SD
Trin-for-trin beregningseksempel
Lad os beregne stikprøvens standardafvigelse for et lille datasæt med karakterer: [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]. Hvis vi følger formlen trin for trin, kan vi se, hvordan variansen akkumuleres, før vi tager den endelige kvadratrod.
Beregn middelværdien (x̄)
Træk middelværdien fra og kvadrér resultatet
Summér de kvadrerede differenser
Divider med n - 1 (frihedsgrader)
Tag kvadratroden
Beregning af standardafvigelse i Python
Manuel beregning af standardafvigelse er fejlbehæftet, især med store datasæt. I praksis bruger statistikere og data scientists programmeringssprog som Python til at beregne det lynhurtigt ved hjælp af indbyggede biblioteker.
import statistics
data = [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]
# Beregn stikprøvens standardafvigelse (standard)
sample_sd = statistics.stdev(data)
print(f"Sample SD: {sample_sd:.2f}")
# Beregn populationens standardafvigelse
pop_sd = statistics.pstdev(data)
print(f"Population SD: {pop_sd:.2f}")Den empiriske regel og standardafvigelse
Når data følger en normalfordeling (klokkekurve), bliver standardafvigelsen utroligt forudsigende. Den empiriske regel, også kendt som 68-95-99.7-reglen, fastslår, at næsten alle data vil falde inden for tre standardafvigelser fra middelværdien. Dette gør det muligt for analytikere hurtigt at identificere outliers og forstå sandsynligheden for, at en specifik observation indtræffer.
| Interval fra middelværdi | Procentdel af data | Anvendelse |
|---|---|---|
| ±1σ | 68.27% | Identifikation af typiske, daglige værdier |
| ±2σ | 95.45% | Opsætning af konfidensintervaller |
| ±3σ | 99.73% | Påvisning af ekstreme outliers |
Standardafvigelse vs. varians
Varians og standardafvigelse er tæt beslægtede mål for spredning. Varians (σ² eller s²) er gennemsnittet af de kvadrerede differenser fra middelværdien, mens standardafvigelse er kvadratroden af variansen. Fordi varians udtrykkes i kvadrerede enheder (f.eks. kvadrerede kroner, kvadrerede centimeter), kan den være svær at fortolke i konteksten af de oprindelige data. Standardafvigelse løser dette ved at konvertere målet tilbage til de oprindelige enheder.
Rapportering af dine data
Almindelige faldgruber, du bør undgå
Selvom standardafvigelse er et stærkt værktøj, bliver den ofte brugt forkert. Forkert anvendelse af formlerne eller misforståelse af, hvad værdien repræsenterer, kan føre til fejlbehæftet dataanalyse og forkerte konklusioner.
- Brug af populationsformlen på en stikprøve: Hvis man glemmer at bruge n - 1 for stikprøver, sænkes den beregnede spredning kunstigt, hvilket underestimerer den sande populationsvarians.
- Anvendelse af SD på ikke-normale fordelinger: Den empiriske regel gælder kun for normalfordelinger. For stærkt skæve data afspejler SD muligvis ikke spredningen korrekt.
- Forveksling af SD med standardfejl: Standardfejlen måler præcisionen af et estimat af stikprøvens middelværdi, mens standardafvigelsen måler spredningen af de underliggende data selv.
Pas på outliers
Further Reading
Sources
References and further authoritative reading used in preparing this article.