Czym jest wariancja?
Wariancja (oznaczana jako σ² dla populacji i s² dla próby) to statystyczna miara rozproszenia wyników w zbiorze danych. Reprezentuje średnią kwadratów różnic od średniej (μ). Dzięki podniesieniu odchyleń do kwadratu, wariancja sprawia, że odchylenia ujemne i dodatnie nie znoszą się nawzajem, dając prawdziwy obraz rozproszenia. Ponieważ jednak odchylenia są podniesione do kwadratu, jednostką wariancji jest kwadrat jednostki pierwotnej, co sprawia, że jej bezpośrednia interpretacja bywa dość abstrakcyjna.
Wariancja populacji
Jednostki miary
Czym jest odchylenie standardowe?
Odchylenie standardowe (oznaczane jako σ dla populacji i s dla próby) to pierwiastek kwadratowy z wariancji. Mierzy ono średnią wielkość, o jaką poszczególne punkty danych odchylają się od średniej. Ponieważ jest obliczane przez wyciągnięcie pierwiastka z wariancji, odchylenie standardowe wyrażone jest w tych samych jednostkach co dane pierwotne, co czyni je znacznie bardziej intuicyjnym i przystępnym w zastosowaniach praktycznych. Jest to najczęściej stosowana miara rozproszenia w statystyce.
Odchylenie standardowe populacji
Odchylenie standardowe a wariancja: kluczowe różnice
Choć obie miary określają rozproszenie punktów danych wokół średniej, ich relacja matematyczna i użyteczność praktyczna znacznie się różnią. Podstawowa różnica polega na jednostkach i interpretowalności. Odchylenie standardowe to pierwiastek z wariancji, co sprowadza miarę rozproszenia z powrotem do oryginalnych jednostek danych. Wariancja, będąca wartością podniesioną do kwadratu, dysproporcjonalnie obciąża wartości odstające, przez co jest na nie bardzo wrażliwa.
| Cecha | Wariancja (σ² / s²) | Odchylenie standardowe (σ / s) |
|---|---|---|
| Podstawa matematyczna | Średnia kwadratów odchyleń | Pierwiastek kwadratowy z wariancji |
| Jednostki | Jednostki kwadratowe (np. cm², zł²) | Jednostki pierwotne (np. cm, zł) |
| Interpretowalność | Abstrakcyjna; trudna do powiązania z danymi | Intuicyjna; bezpośrednio odnosi się do danych |
| Wrażliwość na wartości odstające | Wysoka (ze względu na potęgowanie) | Umiarkowana (pierwiastek łagodzi efekt) |
| Główne zastosowanie | Wnioskowanie statystyczne, ANOVA, Teoria portfelowa | Statystyka opisowa, Raportowanie, Reguła empiryczna |
Wzory dla populacji i próby
Obliczając te miary, musisz odróżnić populację od próby. Populacja obejmuje wszystkich członków określonej grupy, podczas gdy próba jest jej podzbiorem. Użycie wzoru dla próby z mianownikiem (n - 1) – znanego jako poprawka Bessela – koryguje naturalne obciążenie w szacowaniu wariancji populacji na podstawie próby, zapewniając, że estymator jest nieobciążony.
Wariancja próby
Unikaj pułapki n vs n-1
Kiedy stosować wariancję, a kiedy odchylenie standardowe
Wybór między wariancją a odchyleniem standardowym zależy wyłącznie od Twojego celu analitycznego. Jeśli komunikujesz rozproszenie danych odbiorcom nietechnicznym, odchylenie standardowe jest zdecydowanym zwycięzcą, ponieważ odpowiada naturalnym jednostkom danych. Jeśli jednak wykonujesz pośrednie obliczenia statystyczne – takie jak wyznaczanie statystyki F w analizie wariancji (ANOVA), ocena ryzyka w nowoczesnej teorii portfelowej czy przeprowadzanie testów istotności – wariancja jest matematycznie wygodniejsza.
Stosuj wariancję, gdy...
Stosuj odchylenie standardowe, gdy...
Obliczanie odchylenia standardowego i wariancji w Pythonie
Moduł `statistics` w Pythonie udostępnia wbudowane funkcje zarówno dla wariancji, jak i odchylenia standardowego. Korzystając z nich, kluczowe jest wybranie odpowiedniej metody w zależności od tego, czy Twoje dane reprezentują populację, czy próbę.
import statistics
# Zbiór danych próbki
data = [14, 18, 12, 15, 11]
# Obliczanie wariancji i odchylenia standardowego próby
sample_var = statistics.variance(data)
sample_sd = statistics.stdev(data)
# Obliczanie wariancji i odchylenia standardowego populacji
pop_var = statistics.pvariance(data)
pop_sd = statistics.pstdev(data)
print(f"Sample Variance: {sample_var:.2f}")
print(f"Sample SD: {sample_sd:.2f}")
print(f"Population Variance: {pop_var:.2f}")
print(f"Population SD: {pop_sd:.2f}")Najczęściej zadawane pytania
- Czy wariancja może być ujemna? Nie, ponieważ suma kwadratów odchyleń (xᵢ - μ)² jest zawsze równa zero lub wartości dodatniej, wariancja nigdy nie może być ujemna.
- Dlaczego do raportowania preferuje się odchylenie standardowe od wariancji? Odchylenie standardowe jest preferowane, ponieważ ma te same jednostki co średnia, co znacznie ułatwia umiejscowienie go w kontekście i interpretację wraz z danymi pierwotnymi.
- Czy wariancja to to samo co średni błąd kwadratowy (MSE)? Są one podobne, ale MSE zazwyczaj mierzy średni kwadrat różnicy między wartościami estymowanymi a rzeczywistymi, podczas gdy wariancja mierzy rozproszenie wokół średniej. Jeśli estymatorem jest średnia, MSE jest równe wariancji.
Further Reading
Sources
References and further authoritative reading used in preparing this article.