Vad är varians?
Varians (betecknad som σ² för en population och s² för ett urval) är ett statistiskt mått på spridningen mellan tal i ett datamaterial. Det representerar medelvärdet av de kvadrerade avvikelserna från medelvärdet (μ). Genom att kvadrera avvikelserna säkerställer variansen att negativa och positiva avvikelser inte tar ut varandra, vilket ger en sann bild av spridningen. Eftersom avvikelserna dock kvadreras blir den resulterande enheten för variansen kvadraten på den ursprungliga dataenheten, vilket gör den något abstrakt att tolka direkt.
Populationsvarians
Måttenheter
Vad är standardavvikelse?
Standardavvikelse (betecknad som σ för en population och s för ett urval) är kvadratroten av variansen. Den mäter hur mycket enskilda datapunkter i genomsnitt avviker från medelvärdet. Eftersom den härleds genom att ta kvadratroten av variansen uttrycks standardavvikelsen i samma enheter som den ursprungliga datan, vilket gör den betydligt mer intuitiv och tolkningsbar för verkliga tillämpningar. Det är det mest använda måttet på statistisk spridning.
Standardavvikelse för population
Standardavvikelse vs varians: Grundläggande skillnader
Även om båda måtten kvantifierar spridningen av datapunkter kring medelvärdet, skiljer sig deras matematiska relation och praktiska användbarhet åt markant. Den grundläggande skillnaden ligger i deras enheter och tolkningsbarhet. Standardavvikelsen är kvadratroten av variansen, vilket återför spridningsmåttet till datans ursprungliga enheter. Varians, som är ett kvadrerat värde, viktar extremvärden oproportionerligt mycket, vilket gör det mycket känsligt för avvikare.
| Egenskap | Varians (σ² / s²) | Standardavvikelse (σ / s) |
|---|---|---|
| Matematisk grund | Medelvärde av kvadrerade avvikelser | Kvadratroten av variansen |
| Enheter | Kvadratenheter (t.ex. cm², kr²) | Ursprungliga enheter (t.ex. cm, kr) |
| Tolkningsbarhet | Abstrakt; svår att relatera till data | Intuitiv; mappar direkt mot data |
| Känslighet för extremvärden | Hög (på grund av kvadrering) | Måttlig (kvadratroten dämpar effekten) |
| Primärt användningsområde | Statistisk inferens, ANOVA, Portföljteori | Beskrivande statistik, Rapportering, Empiriska regeln |
Formler för population och urval
När du beräknar dessa mått måste du skilja mellan en population och ett urval. En population inkluderar alla medlemmar i en specifik grupp, medan ett urval är en delmängd av den populationen. Att använda urvalsformeln med nämnaren (n - 1) – känt som Bessels korrektion – korrigerar den inneboende bias som uppstår vid uppskattning av populationsvariansen från ett urval, vilket säkerställer att estimatorn är väntefri.
Urvalsvarians
Undvik fällan med n vs n-1
När ska man använda varians vs standardavvikelse
Valet mellan varians och standardavvikelse beror helt på ditt analytiska mål. Om du ska förklara spridningen i din data för en oteknisk publik är standardavvikelsen det självklara valet eftersom den överensstämmer med datans naturliga enheter. Om du däremot utför mellanliggande statistiska beräkningar – som att beräkna F-statistik i ANOVA, bedöma risker i modern portföljteori eller genomföra hypotestester – är variansen matematiskt mer praktisk.
Använd varians när...
Använd standardavvikelse när...
Beräkna standardavvikelse och varians i Python
Pythons `statistics`-modul tillhandahåller inbyggda funktioner för både varians och standardavvikelse. När du använder dessa funktioner är det avgörande att välja rätt metod baserat på om din data representerar en population eller ett urval.
import statistics
# Exempel på dataset
data = [14, 18, 12, 15, 11]
# Beräkna urvalsvarians och standardavvikelse
sample_var = statistics.variance(data)
sample_sd = statistics.stdev(data)
# Beräkna populationsvarians och standardavvikelse
pop_var = statistics.pvariance(data)
pop_sd = statistics.pstdev(data)
print(f"Urvalsvarians: {sample_var:.2f}")
print(f"Urvals standardavvikelse: {sample_sd:.2f}")
print(f"Populationsvarians: {pop_var:.2f}")
print(f"Populations standardavvikelse: {pop_sd:.2f}")Vanliga frågor
- Kan varians vara negativt? Nej, eftersom summan av kvadrerade avvikelser (xᵢ - μ)² alltid är noll eller ett positivt värde, kan varians aldrig vara negativt.
- Varför föredras standardavvikelse framför varians vid rapportering? Standardavvikelse föredras eftersom den har samma enheter som medelvärdet, vilket gör det mycket lättare att sätta i kontext och tolka tillsammans med rådatan.
- Är varians detsamma som mean squared error (MSE)? De liknar varandra, men MSE mäter vanligtvis den genomsnittliga kvadrerade skillnaden mellan uppskattade värden och det faktiska värdet, medan varians mäter spridningen kring medelvärdet. Om estimatorn är medelvärdet är MSE lika med variansen.
Further Reading
Sources
References and further authoritative reading used in preparing this article.