Statistický slovníček
Klíčové statistické pojmy a definice
Směrodatná odchylka (σ / s)
Míra variability nebo rozptýlení v souboru hodnot. Je to druhá odmocnina rozptylu a je vyjádřena ve stejných jednotkách jako data.
Rozptyl (σ² / s²)
Průměr čtverců odchylek od průměru. Rozptyl kvantifikuje míru rozptýlení v souboru dat a je druhou mocninou směrodatné odchylky.
Průměr (μ / x̄)
Aritmetický průměr souboru hodnot, vypočtený sečtením všech hodnot a vydělením počtem. Představuje centrální tendenci dat.
Medián
Střední hodnota v seřazeném souboru dat. Pokud je počet hodnot sudý, medián je průměrem dvou středních hodnot. Je odolný vůči odlehlým hodnotám.
Modus
Hodnota, která se v souboru dat vyskytuje nejčastěji. Soubor dat může mít jeden modus (unimodální), více modů (multimodální) nebo žádný modus.
Variační rozpětí
Rozdíl mezi největší a nejmenší hodnotou v souboru dat. Ačkoli je jednoduchý na výpočet, zohledňuje pouze dvě extrémní hodnoty a je citlivý na odlehlé hodnoty.
Populace
Kompletní soubor všech jedinců nebo pozorování zájmu ve studii. Parametry populace jsou obvykle označovány řeckými písmeny (μ, σ).
Výběr
Podmnožina populace vybraná k analýze. Výběrové statistiky jsou obvykle označovány latinskými písmeny (x̄, s) a slouží k odhadu parametrů populace.
Besselova korekce
Použití n−1 místo n ve jmenovateli při výpočtu výběrového rozptylu. Tato korekce poskytuje nestranný odhad populačního rozptylu z výběru.
Normální rozdělení
Symetrické, zvonově tvarované pravděpodobnostní rozdělení, kde se průměr, medián a modus rovnají. Mnoho přírodních jevů má přibližně normální rozdělení.
Empirické pravidlo (68-95-99,7)
Pro data s normálním rozdělením přibližně 68 % hodnot spadá do ±1σ, 95 % do ±2σ a 99,7 % do ±3σ od průměru.
Z-skóre
Počet směrodatných odchylek, o které se datový bod liší od průměru, vypočtený jako Z = (X − μ) / σ. Z-skóre umožňuje srovnání hodnot z různých rozdělení.
Směrodatná chyba (SE)
Směrodatná odchylka výběrového rozdělení statistiky, nejčastěji průměru. SE = σ/√n, klesá s rostoucí velikostí vzorku.
Interval spolehlivosti
Rozsah hodnot, který s určitou úrovní spolehlivosti (např. 95 %) pravděpodobně obsahuje skutečný parametr populace. Širší intervaly naznačují menší přesnost.
Odlehlá hodnota
Datový bod, který se výrazně liší od ostatních pozorování. Běžné metody detekce zahrnují hodnoty překračující ±2 nebo ±3 směrodatné odchylky od průměru.
Koeficient variace (CV)
Poměr směrodatné odchylky k průměru, vyjádřený v procentech (CV = σ/μ × 100 %). Umožňuje srovnání variability mezi soubory dat s různými měřítky.
Šikmost
Míra asymetrie pravděpodobnostního rozdělení. Kladná šikmost znamená, že chvost sahá doprava; záporná šikmost znamená, že sahá doleva.
Špičatost
Míra těžkosti chvostů pravděpodobnostního rozdělení. Vysoká špičatost znamená těžké chvosty a ostrý vrchol; nízká špičatost znamená lehké chvosty a plochý vrchol.
Stupně volnosti (df)
Počet nezávislých hodnot, které mohou při statistickém výpočtu volně variovat. Pro výběrovou směrodatnou odchylku df = n − 1, což odráží Besselovu korekci.
Centrální limitní věta
Říká, že výběrové rozdělení výběrového průměru se blíží normálnímu rozdělení s rostoucí velikostí vzorku, bez ohledu na rozdělení populace.
Testování hypotéz
Statistická metoda pro rozhodování na základě dat. Zahrnuje porovnání testové statistiky s kritickou hodnotou nebo p-hodnotou k určení, zda zamítnout nulovou hypotézu.
P-hodnota
Pravděpodobnost pozorování výsledku stejně extrémního jako testová statistika za předpokladu platnosti nulové hypotézy. Menší p-hodnoty poskytují silnější důkaz proti nulové hypotéze.
Korelační koeficient (r)
Hodnota mezi −1 a 1, která měří sílu a směr lineárního vztahu mezi dvěma proměnnými. Hodnoty blízké ±1 naznačují silný lineární vztah.
Mezikvartilové rozpětí (IQR)
Rozdíl mezi 75. percentilem (Q3) a 25. percentilem (Q1). IQR měří rozptyl prostředních 50 % dat a je odolný vůči odlehlým hodnotám.
Percentil
Hodnota, pod kterou spadá dané procento pozorování. Například 90. percentil je hodnota, pod kterou se nachází 90 % datových bodů.