Hvad er varians?
Varians (betegnet som σ² for en population og s² for en stikprøve) er et statistisk mål for spredningen mellem tal i et datasæt. Den repræsenterer gennemsnittet af de kvadrerede afvigelser fra middelværdien (μ). Ved at kvadrere afvigelserne sikrer variansen, at negative og positive afvigelser ikke udligner hinanden, hvilket giver et sandt mål for spredning. Fordi afvigelserne dog er kvadreret, er den resulterende enhed for variansen kvadratet på den oprindelige datas enhed, hvilket gør den lidt abstrakt at fortolke direkte.
Populationsvarians
Måleenheder
Hvad er standardafvigelse?
Standardafvigelse (betegnet som σ for en population og s for en stikprøve) er kvadratroden af variansen. Den måler den gennemsnitlige mængde, hvormed individuelle datapunkter afviger fra middelværdien. Fordi den udledes ved at tage kvadratroden af variansen, udtrykkes standardafvigelsen i de samme enheder som de oprindelige data, hvilket gør den langt mere intuitiv og fortolkelig i virkelige applikationer. Det er det mest udbredte mål for statistisk spredning.
Populationsstandardafvigelse
Standardafvigelse vs. varians: Kerneforskelle
Selvom begge metrikker kvantificerer spredningen af datapunkter omkring middelværdien, adskiller deres matematiske relation og praktiske anvendelighed sig markant. Den grundlæggende forskel ligger i deres enheder og fortolkelighed. Standardafvigelse er kvadratroden af variansen, hvilket bringer spredningsmålet tilbage til de oprindelige enheder for dataene. Varians, som er en kvadreret værdi, giver uforholdsmæssig vægt til outliers, hvilket gør den meget følsom over for ekstreme værdier.
| Egenskab | Varians (σ² / s²) | Standardafvigelse (σ / s) |
|---|---|---|
| Matematisk grundlag | Gennemsnit af kvadrerede afvigelser | Kvadratroden af variansen |
| Enheder | Kvadrerede enheder (f.eks. cm², kr²) | Oprindelige enheder (f.eks. cm, kr) |
| Fortolkelighed | Abstrakt; svær at relatere til data | Intuitiv; afbilder direkte dataene |
| Følsomhed over for outliers | Høj (på grund af kvadrering) | Moderat (kvadratroden dæmper effekten) |
| Primært anvendelsestilfælde | Statistisk inferens, ANOVA, Porteføljeteori | Beskrivende statistik, Rapportering, Den empiriske regel |
Formler for population og stikprøve
Når du beregner disse metrikker, skal du skelne mellem en population og en stikprøve. En population omfatter alle medlemmer af en bestemt gruppe, mens en stikprøve er en delmængde af denne population. Ved at bruge stikprøveformlen med en nævner på (n - 1) — kendt som Bessels korrektion — korrigerer man den iboende bias i estimatet af populationsvariansen ud fra en stikprøve, hvilket sikrer, at estimatoren er unbiased.
Stikprøvevarians
Undgå faldgruben med n vs. n-1
Hvornår skal man bruge varians vs. standardafvigelse?
Valget mellem varians og standardafvigelse afhænger helt af dit analytiske formål. Hvis du skal formidle spredningen af dine data til et ikke-teknisk publikum, er standardafvigelse det klare valg, fordi den matcher dataenes naturlige enheder. Hvis du derimod udfører mellemliggende statistiske beregninger — som at beregne F-statistikker i ANOVA, vurdere risiko i moderne porteføljeteori eller udføre hypotesetest — er varians matematisk set mere praktisk.
Brug varians når...
Brug standardafvigelse når...
Beregning af standardafvigelse og varians i Python
Pythons `statistics`-modul indeholder indbyggede funktioner til både varians og standardafvigelse. Når du bruger disse funktioner, er det afgørende at vælge den korrekte metode baseret på, om dine data repræsenterer en population eller en stikprøve.
import statistics
# Sample dataset
data = [14, 18, 12, 15, 11]
# Calculate Sample Variance and SD
sample_var = statistics.variance(data)
sample_sd = statistics.stdev(data)
# Calculate Population Variance and SD
pop_var = statistics.pvariance(data)
pop_sd = statistics.pstdev(data)
print(f"Sample Variance: {sample_var:.2f}")
print(f"Sample SD: {sample_sd:.2f}")
print(f"Population Variance: {pop_var:.2f}")
print(f"Population SD: {pop_sd:.2f}")Ofte stillede spørgsmål
- Kan varians være negativ? Nej, fordi summen af kvadrerede afvigelser (xᵢ - μ)² altid er nul eller en positiv værdi, kan varians aldrig være negativ.
- Hvorfor foretrækkes standardafvigelse frem for varians ved rapportering? Standardafvigelse foretrækkes, fordi den har de samme enheder som middelværdien, hvilket gør den meget nemmere at kontekstualisere og fortolke sammen med rådataene.
- Er varians det samme som mean squared error (MSE)? De ligner hinanden, men MSE måler typisk den gennemsnitlige kvadrerede forskel mellem estimerede værdier og den faktiske værdi, mens varians måler spredningen omkring middelværdien. Hvis estimatoren er middelværdien, er MSE lig med variansen.
Further Reading
Sources
References and further authoritative reading used in preparing this article.