Statisztikai szószedet
Kulcsfontosságú statisztikai fogalmak és definíciók
Szórás (σ / s)
Egy értékhalmaz variációjának vagy szóródásának mértéke. A variancia négyzetgyöke, és az adatokkal azonos mértékegységben fejezik ki.
Variancia (σ² / s²)
Az átlagtól vett négyzetes eltérések átlaga. A variancia számszerűsíti a szóródás mértékét egy adathalmazban, és a szórás négyzete.
Átlag (μ / x̄)
Egy értékhalmaz számtani középértéke, amelyet az összes érték összeadásával és a darabszámmal való osztással számítunk ki. Az adatok központi tendenciáját képviseli.
Medián
A rendezett adathalmaz középső értéke. Ha páros számú érték van, a medián a két középső érték átlaga. Ellenálló a kiugró értékekkel szemben.
Módusz
Az az érték, amely leggyakrabban fordul elő egy adathalmazban. Egy adathalmaznak lehet egy módusza (unimodális), több módusza (multimodális), vagy egyáltalán nincs módusza.
Terjedelem
A legnagyobb és legkisebb érték közötti különbség egy adathalmazban. Bár egyszerűen kiszámítható, csak a két szélső értéket veszi figyelembe, és érzékeny a kiugró értékekre.
Populáció
Egy vizsgálatban szereplő összes egyednek vagy megfigyelésnek a teljes halmaza. A populációs paramétereket általában görög betűkkel jelölik (μ, σ).
Minta
Egy populáció elemzésre kiválasztott részhalmaza. A mintastatisztikákat általában latin betűkkel jelölik (x̄, s), és a populációs paraméterek becslésére használják.
Bessel-korrekció
Az n−1 használata n helyett a nevezőben a mintavariancia kiszámításakor. Ez a korrekció torzítatlan becslést ad a populációs varianciára egy mintából.
Normális eloszlás
Egy szimmetrikus, harang alakú valószínűségi eloszlás, ahol az átlag, a medián és a módusz egyenlő. Sok természeti jelenség közelítőleg normális eloszlást követ.
Empirikus szabály (68-95-99,7)
Normális eloszlású adatok esetén az értékek kb. 68%-a esik ±1σ, 95%-a ±2σ, és 99,7%-a ±3σ távolságra az átlagtól.
Z-érték
Egy adatpont átlagtól vett szórásnyi távolsága, Z = (X − μ) / σ képlettel számítva. A z-értékek lehetővé teszik különböző eloszlásokból származó értékek összehasonlítását.
Standard hiba (SE)
Egy statisztika mintavételi eloszlásának szórása, leggyakrabban az átlagé. SE = σ/√n, és a mintaméret növekedésével csökken.
Konfidenciaintervallum
Egy értéktartomány, amely meghatározott konfidenciaszinten (pl. 95%) valószínűleg tartalmazza a valódi populációs paramétert. A szélesebb intervallumok kisebb pontosságot jeleznek.
Kiugró érték
Egy adatpont, amely jelentősen különbözik a többi megfigyeléstől. Gyakori felismerési módszerek közé tartoznak az átlagtól ±2 vagy ±3 szórásnál távolabb eső értékek.
Variációs együttható (CV)
A szórás és az átlag aránya, százalékban kifejezve (CV = σ/μ × 100%). Lehetővé teszi a változékonyság összehasonlítását különböző skálájú adathalmazok között.
Ferdeség
Egy valószínűségi eloszlás aszimmetriájának mértéke. Pozitív ferdeség azt jelenti, hogy a farok jobbra nyúlik; negatív ferdeség azt jelenti, hogy balra nyúlik.
Csúcsosság
Egy valószínűségi eloszlás faroktulajdonságának mértéke. Magas csúcsosság nehéz farkakat és éles csúcsot jelez; alacsony csúcsosság könnyű farkakat és lapos csúcsot jelez.
Szabadsági fokok (df)
Egy statisztikai számításban szabadon változtatható független értékek száma. Mintaszórás esetén df = n − 1, ami a Bessel-korrekciót tükrözi.
Centrális határeloszlás-tétel
Kimondja, hogy a mintaátlag mintavételi eloszlása a mintaméret növekedésével normális eloszláshoz közelít, függetlenül a populáció eloszlásától.
Hipotézisvizsgálat
Statisztikai módszer az adatokon alapuló döntéshozatalhoz. Magában foglalja egy tesztstatisztika összehasonlítását egy kritikus értékkel vagy p-értékkel annak meghatározására, hogy el kell-e utasítani a nullhipotézist.
P-érték
Annak valószínűsége, hogy a tesztstatisztikához hasonlóan szélsőséges eredményt kapunk, feltéve, hogy a nullhipotézis igaz. A kisebb p-értékek erősebb bizonyítékot nyújtanak a nullhipotézis ellen.
Korrelációs együttható (r)
Egy −1 és 1 közötti érték, amely két változó közötti lineáris kapcsolat erősségét és irányát méri. A ±1-hez közeli értékek erős lineáris kapcsolatot jeleznek.
Interkvartilis terjedelem (IQR)
A 75. percentilis (Q3) és a 25. percentilis (Q1) közötti különbség. Az IQR az adatok középső 50%-ának szóródását méri, és ellenálló a kiugró értékekkel szemben.
Percentilis
Az az érték, amely alatt a megfigyelések adott százaléka található. Például a 90. percentilis az az érték, amely alatt az adatpontok 90%-a található.