Statistisk ordlista

Viktiga statistiska termer och definitioner

general

Standardavvikelse (σ / s)

Ett mått på mängden variation eller spridning i en uppsättning värden. Det är kvadratroten av variansen och uttrycks i samma enheter som datan.

Varians (σ² / s²)

Genomsnittet av de kvadrerade avvikelserna från medelvärdet. Variansen kvantifierar graden av spridning i en datamängd och är kvadraten av standardavvikelsen.

Medelvärde (μ / x̄)

Det aritmetiska genomsnittet av en uppsättning värden, beräknat genom att summera alla värden och dividera med antalet. Det representerar datans centrala tendens.

Median

Det mittersta värdet i en sorterad datamängd. Om det finns ett jämnt antal värden är medianen genomsnittet av de två mittersta värdena. Den är motståndskraftig mot extremvärden.

Typvärde

Det värde som förekommer oftast i en datamängd. En datamängd kan ha ett typvärde (unimodal), flera typvärden (multimodal) eller inget typvärde alls.

Variationsvidd

Skillnaden mellan det största och minsta värdet i en datamängd. Även om den är enkel att beräkna tar den bara hänsyn till de två extremvärdena och är känslig för extremvärden.

Population

Den fullständiga uppsättningen av alla individer eller observationer av intresse i en studie. Populationsparametrar betecknas vanligtvis med grekiska bokstäver (μ, σ).

Stickprov

En delmängd av en population utvald för analys. Stickprovsstatistik betecknas vanligtvis med latinska bokstäver (x̄, s) och används för att uppskatta populationsparametrar.

Bessels korrektion

Användningen av n−1 istället för n i nämnaren vid beräkning av stickprovsvarians. Denna korrektion ger en väntevärdesriktig uppskattning av populationsvariansen från ett stickprov.

Normalfördelning

En symmetrisk, klockformad sannolikhetsfördelning där medelvärde, median och typvärde alla är lika. Många naturliga fenomen följer en ungefärlig normalfördelning.

Empiriska regeln (68-95-99,7)

För normalfördelad data faller ungefär 68% av värdena inom ±1σ, 95% inom ±2σ och 99,7% inom ±3σ från medelvärdet.

Z-värde

Antalet standardavvikelser en datapunkt är från medelvärdet, beräknat som Z = (X − μ) / σ. Z-värden möjliggör jämförelse av värden från olika fördelningar.

Standardfel (SE)

Standardavvikelsen för stickprovsfördelningen av en statistik, vanligtvis medelvärdet. SE = σ/√n, som minskar när stickprovsstorleken ökar.

Konfidensintervall

Ett intervall av värden som sannolikt innehåller den verkliga populationsparametern med en angiven konfidensnivå (t.ex. 95%). Bredare intervall indikerar lägre precision.

Extremvärde

En datapunkt som skiljer sig väsentligt från andra observationer. Vanliga detektionsmetoder inkluderar värden bortom ±2 eller ±3 standardavvikelser från medelvärdet.

Variationskoefficient (CV)

Förhållandet mellan standardavvikelsen och medelvärdet, uttryckt i procent (CV = σ/μ × 100%). Det möjliggör jämförelse av variabilitet mellan datamängder med olika skalor.

Skevhet

Ett mått på asymmetrin hos en sannolikhetsfördelning. Positiv skevhet innebär att svansen sträcker sig åt höger; negativ skevhet innebär att den sträcker sig åt vänster.

Kurtosis

Ett mått på svanstyngden hos en sannolikhetsfördelning. Hög kurtosis indikerar tunga svansar och en skarp topp; låg kurtosis indikerar lätta svansar och en platt topp.

Frihetsgrader (df)

Antalet oberoende värden som kan variera i en statistisk beräkning. För stickprovets standardavvikelse är df = n − 1, vilket återspeglar Bessels korrektion.

Centrala gränsvärdessatsen

Säger att stickprovsfördelningen av stickprovsmedelvärdet närmar sig en normalfördelning när stickprovsstorleken ökar, oavsett populationens fördelning.

Hypotesprövning

En statistisk metod för att fatta beslut baserat på data. Den innebär att jämföra en teststatistik med ett kritiskt värde eller p-värde för att avgöra om nollhypotesen ska förkastas.

P-värde

Sannolikheten att observera ett resultat lika extremt som teststatistiken, givet att nollhypotesen är sann. Mindre p-värden ger starkare bevis mot nollhypotesen.

Korrelationskoefficient (r)

Ett värde mellan −1 och 1 som mäter styrkan och riktningen av det linjära sambandet mellan två variabler. Värden nära ±1 indikerar ett starkt linjärt samband.

Kvartilavstånd (IQR)

Skillnaden mellan den 75:e percentilen (Q3) och den 25:e percentilen (Q1). IQR mäter spridningen av de mittersta 50% av datan och är motståndskraftigt mot extremvärden.

Percentil

Ett värde under vilket en given procentandel av observationerna faller. Till exempel är den 90:e percentilen det värde under vilket 90% av datapunkterna finns.