Dva způsoby měření rozptylu
Rozpětí i směrodatná odchylka měří, jak jsou data rozptýlená, ale zachycují zásadně odlišné aspekty rozptylu. Pochopení, kdy použít kterou míru, je pro správnou analýzu dat nezbytné.
Rozpětí vám říká o extrémech — jak daleko od sebe jsou nejvyšší a nejnižší hodnoty. Směrodatná odchylka říká o typickém rozptylu kolem průměru. Obě míry jsou užitečné, ale pro různé účely.
Rychlý průvodce rozhodováním
Použijte rozpětí, když vás zajímají extrémy (regulační meze kvality, kolísání teplot). Použijte směrodatnou odchylku, když vás zajímá typická variabilita a potřebujete statistickou přesnost.
Definice a vzorce
Rozpětí
Rozpětí = Maximum - Minimum
Nejjednodušší míra rozptylu. Bere v úvahu pouze dvě hodnoty bez ohledu na velikost datového souboru.
Směrodatná odchylka
s = √[Σ(xᵢ - x̄)² / (n-1)]
Využívá každý datový bod k měření průměrné vzdálenosti od průměru.
Přímé srovnání
Výhody a nevýhody rozpětí
Výhody:
- Extrémně jednoduchý výpočet — stačí odečíst
- Snadné pochopení a komunikace
- Přímo ukazuje rozsah dat
- Užitečné pro rychlé kontroly kvality
Nevýhody:
- Ignoruje všechny střední hodnoty
- Extrémně citlivé na odlehlé hodnoty
- Roste s velikostí výběru
- Statisticky neefektivní
Výhody a nevýhody SO
Výhody:
- Využívá všechny datové body
- Statisticky efektivní a robustní
- Stabilní s rostoucí velikostí výběru
- Základ pro pokročilou statistiku
Nevýhody:
- Složitější ruční výpočet
- Méně intuitivní pro nestatistiky
- Může skrýt důležité extrémní hodnoty
- Stále ovlivněna odlehlými hodnotami (použijte MAD)
Kdy použít kterou míru
Kdy použít rozpětí:
- Potřebujete rychlý, přibližný odhad rozptylu
- Záleží na extrémních hodnotách (např. teplotní rozsah pro návrh HVAC)
- Data jsou prokazatelně bez odlehlých hodnot
- Komunikujete s publikem neznalým statistiky
- Velikost výběru je malá a fixní (stejná pro všechna srovnání)
Kdy použít směrodatnou odchylku:
- Provádíte statistickou analýzu nebo testování hypotéz
- Porovnáváte variabilitu napříč různými velikostmi výběrů
- Počítáte intervaly spolehlivosti nebo p-hodnoty
- Hodnotíte typickou variabilitu spíše než extrémy
- Data mohou obsahovat odlehlé hodnoty, které by neměly dominovat míře
Praktické příklady
Příklad: Denní teploty
Data: 22 °C, 24 °C, 23 °C, 23 °C, 24 °C, 22 °C, 23 °C
Rozpětí: 24 - 22 = 2 °C (teplotní výkyv)
SO: 0,82 °C (typická denní variabilita)
Obě míry jsou zde užitečné — rozpětí pro kapacitu HVAC, SO pro konzistenci komfortu.
Příklad: Výsledky testů s odlehlou hodnotou
Data: 85, 88, 87, 86, 89, 42 (jeden student se neučil)
Rozpětí: 89 - 42 = 47 bodů (ovládnuto odlehlou hodnotou!)
SO: 17,4 bodů (stále ovlivněno, ale méně)
Rozpětí je zde zavádějící. Zvažte použití SO nebo odstranění odlehlé hodnoty.
Pokročilé úvahy
Vztah mezi rozpětím a SO: Pro normálně rozdělená data platí Rozpětí ≈ 4–6 × SO pro typické velikosti výběrů. To umožňuje přibližný přepočet mezi nimi.
Mezikvartilové rozpětí (IQR): Kompromis, který používá Q3 - Q1 místo max - min. Je robustnější než rozpětí a jednodušší než SO.
Osvědčený postup
Pokud je to vhodné, uvádějte obě míry. „Teplotní rozpětí bylo 8 °C (SO = 2,3 °C)“ dává čtenářům úplné informace o extrémech i typické variabilitě.