Σ
SDCalc
ŚredniozaawansowanyFundamentals·9 min

Odchylenie standardowe a wariancja: kluczowe różnice

Zrozum kluczowe różnice między odchyleniem standardowym a wariancją. Poznaj ich wzory, właściwe zastosowanie i wpływ na analizę danych.

By Standard Deviation Calculator Team · Data Science Team·Published

Czym jest wariancja?

Wariancja (oznaczana jako σ² dla populacji i s² dla próby) to statystyczna miara rozproszenia wyników w zbiorze danych. Reprezentuje średnią kwadratów różnic od średniej (μ). Dzięki podniesieniu odchyleń do kwadratu, wariancja sprawia, że odchylenia ujemne i dodatnie nie znoszą się nawzajem, dając prawdziwy obraz rozproszenia. Ponieważ jednak odchylenia są podniesione do kwadratu, jednostką wariancji jest kwadrat jednostki pierwotnej, co sprawia, że jej bezpośrednia interpretacja bywa dość abstrakcyjna.

Wariancja populacji

σ² = Σ(xᵢ - μ)² / N

Jednostki miary

Jeśli Twoje dane przedstawiają wzrost w centymetrach, wariancja jest wyrażona w centymetrach kwadratowych (cm²). Ta podniesiona do kwadratu jednostka to jeden z głównych powodów, dla których wariancję trudno interpretować w praktycznych, rzeczywistych sytuacjach.

Czym jest odchylenie standardowe?

Odchylenie standardowe (oznaczane jako σ dla populacji i s dla próby) to pierwiastek kwadratowy z wariancji. Mierzy ono średnią wielkość, o jaką poszczególne punkty danych odchylają się od średniej. Ponieważ jest obliczane przez wyciągnięcie pierwiastka z wariancji, odchylenie standardowe wyrażone jest w tych samych jednostkach co dane pierwotne, co czyni je znacznie bardziej intuicyjnym i przystępnym w zastosowaniach praktycznych. Jest to najczęściej stosowana miara rozproszenia w statystyce.

Odchylenie standardowe populacji

σ = √(Σ(xᵢ - μ)² / N)

Odchylenie standardowe a wariancja: kluczowe różnice

Choć obie miary określają rozproszenie punktów danych wokół średniej, ich relacja matematyczna i użyteczność praktyczna znacznie się różnią. Podstawowa różnica polega na jednostkach i interpretowalności. Odchylenie standardowe to pierwiastek z wariancji, co sprowadza miarę rozproszenia z powrotem do oryginalnych jednostek danych. Wariancja, będąca wartością podniesioną do kwadratu, dysproporcjonalnie obciąża wartości odstające, przez co jest na nie bardzo wrażliwa.

CechaWariancja (σ² / s²)Odchylenie standardowe (σ / s)
Podstawa matematycznaŚrednia kwadratów odchyleńPierwiastek kwadratowy z wariancji
JednostkiJednostki kwadratowe (np. cm², zł²)Jednostki pierwotne (np. cm, zł)
InterpretowalnośćAbstrakcyjna; trudna do powiązania z danymiIntuicyjna; bezpośrednio odnosi się do danych
Wrażliwość na wartości odstająceWysoka (ze względu na potęgowanie)Umiarkowana (pierwiastek łagodzi efekt)
Główne zastosowanieWnioskowanie statystyczne, ANOVA, Teoria portfelowaStatystyka opisowa, Raportowanie, Reguła empiryczna

Wzory dla populacji i próby

Obliczając te miary, musisz odróżnić populację od próby. Populacja obejmuje wszystkich członków określonej grupy, podczas gdy próba jest jej podzbiorem. Użycie wzoru dla próby z mianownikiem (n - 1) – znanego jako poprawka Bessela – koryguje naturalne obciążenie w szacowaniu wariancji populacji na podstawie próby, zapewniając, że estymator jest nieobciążony.

Wariancja próby

s² = Σ(xᵢ - x̄)² / (n - 1)

Unikaj pułapki n vs n-1

Używanie 'n' zamiast '(n - 1)' dla wariancji próby systematycznie zaniży prawdziwą wariancję populacji. Zawsze stosuj stopnie swobody (df = n - 1) podczas pracy z danymi próbnymi w celu wnioskowania o parametrach populacji.

Kiedy stosować wariancję, a kiedy odchylenie standardowe

Wybór między wariancją a odchyleniem standardowym zależy wyłącznie od Twojego celu analitycznego. Jeśli komunikujesz rozproszenie danych odbiorcom nietechnicznym, odchylenie standardowe jest zdecydowanym zwycięzcą, ponieważ odpowiada naturalnym jednostkom danych. Jeśli jednak wykonujesz pośrednie obliczenia statystyczne – takie jak wyznaczanie statystyki F w analizie wariancji (ANOVA), ocena ryzyka w nowoczesnej teorii portfelowej czy przeprowadzanie testów istotności – wariancja jest matematycznie wygodniejsza.

Stosuj wariancję, gdy...

- Wykonujesz analizę ANOVA lub testy F - Obliczasz ryzyko portfelowe (macierze kowariancji) - Przeprowadzasz teoretyczne dowody statystyczne - Tworzysz funkcje strat w uczeniu maszynowym (np. MSE)

Stosuj odchylenie standardowe, gdy...

- Raportujesz rozproszenie danych w publikacjach - Stosujesz regułę empiryczną (68-95-99,7) - Tworzysz karty kontrolne do zapewnienia jakości - Komunikujesz zmienność osobom nietechnicznym

Obliczanie odchylenia standardowego i wariancji w Pythonie

Moduł `statistics` w Pythonie udostępnia wbudowane funkcje zarówno dla wariancji, jak i odchylenia standardowego. Korzystając z nich, kluczowe jest wybranie odpowiedniej metody w zależności od tego, czy Twoje dane reprezentują populację, czy próbę.

python
import statistics

# Zbiór danych próbki
data = [14, 18, 12, 15, 11]

# Obliczanie wariancji i odchylenia standardowego próby
sample_var = statistics.variance(data)
sample_sd = statistics.stdev(data)

# Obliczanie wariancji i odchylenia standardowego populacji
pop_var = statistics.pvariance(data)
pop_sd = statistics.pstdev(data)

print(f"Sample Variance: {sample_var:.2f}")
print(f"Sample SD: {sample_sd:.2f}")
print(f"Population Variance: {pop_var:.2f}")
print(f"Population SD: {pop_sd:.2f}")

Najczęściej zadawane pytania

  • Czy wariancja może być ujemna? Nie, ponieważ suma kwadratów odchyleń (xᵢ - μ)² jest zawsze równa zero lub wartości dodatniej, wariancja nigdy nie może być ujemna.
  • Dlaczego do raportowania preferuje się odchylenie standardowe od wariancji? Odchylenie standardowe jest preferowane, ponieważ ma te same jednostki co średnia, co znacznie ułatwia umiejscowienie go w kontekście i interpretację wraz z danymi pierwotnymi.
  • Czy wariancja to to samo co średni błąd kwadratowy (MSE)? Są one podobne, ale MSE zazwyczaj mierzy średni kwadrat różnicy między wartościami estymowanymi a rzeczywistymi, podczas gdy wariancja mierzy rozproszenie wokół średniej. Jeśli estymatorem jest średnia, MSE jest równe wariancji.

Further Reading

Sources

References and further authoritative reading used in preparing this article.

  1. Odchylenie standardowe - Wikipedia
  2. NIST/SEMATECH e-Podręcznik metod statystycznych