Czym jest wariancja?
Wariancja mierzy, jak bardzo zbiór liczb jest rozproszony względem ich wartości średniej. Jest to średnia kwadratów odchyleń od średniej — i stanowi fundament, na którym opiera się odchylenie standardowe.
Każdy słupek pokazuje kwadrat odchylenia od średniej. Wariancja = średnia z tych słupków.
Wzór na wariancję
Wariancja populacji
σ² = Σ(xᵢ - μ)² / N
Wariancja próbki
s² = Σ(xᵢ - x̄)² / (n-1)
1
Oblicz średnią
Dodaj wszystkie wartości i podziel przez ich liczbę.
2
Znajdź każde odchylenie
Odejmij średnią od każdego punktu danych.
3
Podnieś każde odchylenie do kwadratu
Eliminuje to wartości ujemne i podkreśla duże odchylenia.
4
Uśrednij kwadraty odchyleń
Podziel przez N (populacja) lub n-1 (próbka).
Dlaczego podnosimy odchylenia do kwadratu?
Trzy kluczowe powody
1. Eliminacja wartości ujemnych: Bez podnoszenia do kwadratu odchylenia dodatnie i ujemne znosiłyby się wzajemnie, dając sumę zero.
2. Karanie wartości odstających: Podniesienie do kwadratu nadaje większą wagę wartościom odległym od średniej.
3. Własności matematyczne: Wariancja posiada użyteczne własności algebraiczne w inferencji statystycznej.
Przykład: Dlaczego nie używamy wartości bezwzględnych?
Zbiór danych: 2, 4, 4, 4, 5, 5, 7, 9 (Średnia = 5)
Średnie odchylenie bezwzględne:
|2-5| + |4-5| + ... = 14
MAD = 14/8 = 1,75
Wariancja (kwadraty):
(2-5)² + (4-5)² + ... = 32
Var = 32/8 = 4
Wariancja a odchylenie standardowe
Zależność
Standard Deviation = √Variance → σ = √σ²
Wariancja (σ²)
- Jednostki są podniesione do kwadratu (np. cm², zł²)
- Trudniejsza w bezpośredniej interpretacji
- Przydatna w operacjach matematycznych
- Addytywna dla zmiennych niezależnych
Odchylenie standardowe (σ)
- Te same jednostki co dane oryginalne
- Łatwiejsze w interpretacji
- Lepsze do komunikowania wyników
- Stosowane w Z-score i przedziałach ufności
Zastosowania wariancji
Choć odchylenie standardowe jest częściej raportowane, wariancja ma specyficzne zastosowania:
- ANOVA:Analiza wariancji porównuje średnie między grupami
- Teoria portfela:Wariancje stóp zwrotu są używane w optymalizacji
- Regresja:R² to wariancja wyjaśniona podzielona przez wariancję całkowitą
- PCA:Analiza głównych składowych maksymalizuje wyjaśnioną wariancję