Co je směrodatná odchylka?
Směrodatná odchylka je statistická míra, která kvantifikuje míru variability neboli rozptýlení v souboru datových hodnot. Nízká směrodatná odchylka znamená, že datové body se obvykle nacházejí blízko průměru (střední hodnoty) souboru, zatímco vysoká směrodatná odchylka ukazuje, že datové body jsou rozptýleny v širším rozsahu hodnot. Označuje se řeckým písmenem σ (sigma) pro základní soubor a písmenem s pro výběr, a patří k nejzákladnějším konceptům popisné statistiky.
Základní definice
Směrodatná odchylka základního souboru vs. výběru
Před výpočtem směrodatné odchylky musíte určit, zda vaše data představují celý základní soubor, nebo výběr ze základního souboru. Základní soubor zahrnuje všechny členy určené skupiny, zatímco výběr je reprezentativní podmnožina této skupiny. Výpočet směrodatné odchylky pro výběr vyžaduje matematickou úpravu – použití n - 1 (stupně volnosti, nebo df) místo N – aby byla zajištěna nestrannost odhadu rozptylu základního souboru.
Směrodatná odchylka základního souboru
Směrodatná odchylka výběru
Vysvětlení vzorce pro směrodatnou odchylku
Vzorce pro směrodatnou odchylku vycházejí z výpočtu rozptylu, ze kterého se následně extrahuje odmocnina. Tento krok s odmocninou je klíčový, protože vrací míru rozptýlení zpět do původních jednotek dat. Klíčovými složkami jsou xᵢ (jednotlivé hodnoty), μ nebo x̄ (průměr základního souboru nebo výběru) a N nebo n (celkový počet hodnot).
SD základního souboru
SD výběru
Příklad výpočtu krok za krokem
Vypočítejme směrodatnou odchylku výběru pro malou datovou sadu výsledků testů: [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]. Postupný výpočet podle vzorce ukazuje, jak se rozptyl hromadí, než vezmeme konečnou odmocninu.
Vypočítejte průměr (x̄)
Odečtěte průměr a výsledek umocněte na druhou
Sečtěte druhé mocniny rozdílů
Vydělte hodnotou n - 1 (stupně volnosti)
Extrahujte odmocninu
Výpočet směrodatné odchylky v Pythonu
Ruční výpočet směrodatné odchylky je náchylný k chybám, zejména u velkých datových sad. V praxi statistici a datoví analytici používají programovací jazyky jako Python, kde ji okamžitě vypočítají pomocí vestavěných knihoven.
import statistics
data = [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]
# Výpočet směrodatné odchylky výběru (výchozí)
sample_sd = statistics.stdev(data)
print(f"Sample SD: {sample_sd:.2f}")
# Výpočet směrodatné odchylky základního souboru
pop_sd = statistics.pstdev(data)
print(f"Population SD: {pop_sd:.2f}")Empirické pravidlo a směrodatná odchylka
Pokud data následují normální rozdělení (Gaussovu křivku), stává se směrodatná odchylka neuvěřitelně prediktivní. Empirické pravidlo, také známé jako pravidlo 68-95-99.7, uvádí, že téměř všechna data spadají do tří směrodatných odchylek od průměru. To analytikům umožňuje rychle identifikovat odlehlé hodnoty a porozumět pravděpodobnosti výskytu konkrétního pozorování.
| Interval od průměru | Podíl dat | Aplikace |
|---|---|---|
| ±1σ | 68.27% | Identifikace typických, běžných hodnot |
| ±2σ | 95.45% | Nastavení intervalů spolehlivosti |
| ±3σ | 99.73% | Detekce extrémních odlehlých hodnot |
Směrodatná odchylka vs. rozptyl
Rozptyl a směrodatná odchylka jsou úzce související míry rozptýlení. Rozptyl (σ² nebo s²) je průměr druhých mocnin rozdílů od průměru, zatímco směrodatná odchylka je druhá odmocnina z rozptylu. Protože se rozptyl vyjadřuje ve čtverečných jednotkách (např. koruny na druhou, centimetry na druhou), může být obtížné jej interpretovat v kontextu původních dat. Směrodatná odchylka tento problém řeší převedením míry zpět do původních jednotek.
Prezentace vašich dat
Častá úskalí, kterým je třeba se vyhnout
Ačkoli je směrodatná odchylka mocný nástroj, často se zneužívá. Nesprávné použití vzorců nebo nepochopení toho, co hodnota představuje, může vést k chybné analýze dat a nesprávným závěrům.
- Použití vzorce pro základní soubor u výběru: Zapomenutí použití n - 1 u výběrů uměle snižuje vypočítané rozptýlení a podhodnocuje skutečný rozptyl základního souboru.
- Aplikace SD na nenormální rozdělení: Empirické pravidlo platí pouze pro normální rozdělení. U silně zešikmených dat SD nemusí přesně odrážet rozptýlení.
- Záměna SD se standardní chybou: Standardní chyba měří přesnost odhadu výběrového průměru, zatímco směrodatná odchylka měří rozptýlení samotných podkladových dat.
Pozor na odlehlé hodnoty
Further Reading
Sources
References and further authoritative reading used in preparing this article.