Statistický slovníček

Klíčové statistické pojmy a definice

general

Směrodatná odchylka (σ / s)

Míra variability nebo rozptýlení v souboru hodnot. Je to druhá odmocnina rozptylu a je vyjádřena ve stejných jednotkách jako data.

Rozptyl (σ² / s²)

Průměr čtverců odchylek od průměru. Rozptyl kvantifikuje míru rozptýlení v souboru dat a je druhou mocninou směrodatné odchylky.

Průměr (μ / x̄)

Aritmetický průměr souboru hodnot, vypočtený sečtením všech hodnot a vydělením počtem. Představuje centrální tendenci dat.

Medián

Střední hodnota v seřazeném souboru dat. Pokud je počet hodnot sudý, medián je průměrem dvou středních hodnot. Je odolný vůči odlehlým hodnotám.

Modus

Hodnota, která se v souboru dat vyskytuje nejčastěji. Soubor dat může mít jeden modus (unimodální), více modů (multimodální) nebo žádný modus.

Variační rozpětí

Rozdíl mezi největší a nejmenší hodnotou v souboru dat. Ačkoli je jednoduchý na výpočet, zohledňuje pouze dvě extrémní hodnoty a je citlivý na odlehlé hodnoty.

Populace

Kompletní soubor všech jedinců nebo pozorování zájmu ve studii. Parametry populace jsou obvykle označovány řeckými písmeny (μ, σ).

Výběr

Podmnožina populace vybraná k analýze. Výběrové statistiky jsou obvykle označovány latinskými písmeny (x̄, s) a slouží k odhadu parametrů populace.

Besselova korekce

Použití n−1 místo n ve jmenovateli při výpočtu výběrového rozptylu. Tato korekce poskytuje nestranný odhad populačního rozptylu z výběru.

Normální rozdělení

Symetrické, zvonově tvarované pravděpodobnostní rozdělení, kde se průměr, medián a modus rovnají. Mnoho přírodních jevů má přibližně normální rozdělení.

Empirické pravidlo (68-95-99,7)

Pro data s normálním rozdělením přibližně 68 % hodnot spadá do ±1σ, 95 % do ±2σ a 99,7 % do ±3σ od průměru.

Z-skóre

Počet směrodatných odchylek, o které se datový bod liší od průměru, vypočtený jako Z = (X − μ) / σ. Z-skóre umožňuje srovnání hodnot z různých rozdělení.

Směrodatná chyba (SE)

Směrodatná odchylka výběrového rozdělení statistiky, nejčastěji průměru. SE = σ/√n, klesá s rostoucí velikostí vzorku.

Interval spolehlivosti

Rozsah hodnot, který s určitou úrovní spolehlivosti (např. 95 %) pravděpodobně obsahuje skutečný parametr populace. Širší intervaly naznačují menší přesnost.

Odlehlá hodnota

Datový bod, který se výrazně liší od ostatních pozorování. Běžné metody detekce zahrnují hodnoty překračující ±2 nebo ±3 směrodatné odchylky od průměru.

Koeficient variace (CV)

Poměr směrodatné odchylky k průměru, vyjádřený v procentech (CV = σ/μ × 100 %). Umožňuje srovnání variability mezi soubory dat s různými měřítky.

Šikmost

Míra asymetrie pravděpodobnostního rozdělení. Kladná šikmost znamená, že chvost sahá doprava; záporná šikmost znamená, že sahá doleva.

Špičatost

Míra těžkosti chvostů pravděpodobnostního rozdělení. Vysoká špičatost znamená těžké chvosty a ostrý vrchol; nízká špičatost znamená lehké chvosty a plochý vrchol.

Stupně volnosti (df)

Počet nezávislých hodnot, které mohou při statistickém výpočtu volně variovat. Pro výběrovou směrodatnou odchylku df = n − 1, což odráží Besselovu korekci.

Centrální limitní věta

Říká, že výběrové rozdělení výběrového průměru se blíží normálnímu rozdělení s rostoucí velikostí vzorku, bez ohledu na rozdělení populace.

Testování hypotéz

Statistická metoda pro rozhodování na základě dat. Zahrnuje porovnání testové statistiky s kritickou hodnotou nebo p-hodnotou k určení, zda zamítnout nulovou hypotézu.

P-hodnota

Pravděpodobnost pozorování výsledku stejně extrémního jako testová statistika za předpokladu platnosti nulové hypotézy. Menší p-hodnoty poskytují silnější důkaz proti nulové hypotéze.

Korelační koeficient (r)

Hodnota mezi −1 a 1, která měří sílu a směr lineárního vztahu mezi dvěma proměnnými. Hodnoty blízké ±1 naznačují silný lineární vztah.

Mezikvartilové rozpětí (IQR)

Rozdíl mezi 75. percentilem (Q3) a 25. percentilem (Q1). IQR měří rozptyl prostředních 50 % dat a je odolný vůči odlehlým hodnotám.

Percentil

Hodnota, pod kterou spadá dané procento pozorování. Například 90. percentil je hodnota, pod kterou se nachází 90 % datových bodů.