Słownik Statystyczny
Kluczowe terminy i definicje statystyczne
Odchylenie standardowe (σ / s)
Miara wielkości zmienności lub rozproszenia w zbiorze wartości. Jest to pierwiastek kwadratowy z wariancji i jest wyrażona w tych samych jednostkach co dane.
Wariancja (σ² / s²)
Średnia kwadratów odchyleń od średniej. Wariancja określa ilościowo stopień rozproszenia w zbiorze danych i jest kwadratem odchylenia standardowego.
Średnia (μ / x̄)
Średnia arytmetyczna zbioru wartości, obliczana przez zsumowanie wszystkich wartości i podzielenie przez ich liczbę. Reprezentuje tendencję centralną danych.
Mediana
Wartość środkowa w posortowanym zbiorze danych. Jeśli jest parzysta liczba wartości, mediana jest średnią dwóch środkowych wartości. Jest odporna na wartości odstające.
Dominanta
Wartość pojawiająca się najczęściej w zbiorze danych. Zbiór danych może mieć jedną dominantę (jednomodowy), wiele dominant (wielomodowy) lub nie mieć dominanty wcale.
Rozstęp
Różnica między największą a najmniejszą wartością w zbiorze danych. Choć prosty w obliczeniu, uwzględnia tylko dwie wartości skrajne i jest wrażliwy na wartości odstające.
Populacja
Pełny zbiór wszystkich jednostek lub obserwacji będących przedmiotem zainteresowania w badaniu. Parametry populacji są zazwyczaj oznaczane literami greckimi (μ, σ).
Próba
Podzbiór populacji wybrany do analizy. Statystyki próby są zazwyczaj oznaczane literami łacińskimi (x̄, s) i służą do szacowania parametrów populacji.
Poprawka Bessela
Użycie n−1 zamiast n w mianowniku przy obliczaniu wariancji próby. Ta poprawka zapewnia nieobciążony estymator wariancji populacji na podstawie próby.
Rozkład normalny
Symetryczny, dzwonowaty rozkład prawdopodobieństwa, w którym średnia, mediana i dominanta są sobie równe. Wiele zjawisk naturalnych w przybliżeniu podlega rozkładowi normalnemu.
Reguła empiryczna (68-95-99,7)
Dla danych o rozkładzie normalnym, około 68% wartości mieści się w zakresie ±1σ, 95% w zakresie ±2σ, a 99,7% w zakresie ±3σ od średniej.
Wynik Z
Liczba odchyleń standardowych, o jaką punkt danych odbiega od średniej, obliczana jako Z = (X − μ) / σ. Wyniki Z umożliwiają porównanie wartości z różnych rozkładów.
Błąd standardowy (SE)
Odchylenie standardowe rozkładu z próbkowania statystyki, najczęściej średniej. SE = σ/√n, maleje wraz ze wzrostem wielkości próby.
Przedział ufności
Zakres wartości, który z określonym poziomem ufności (np. 95%) prawdopodobnie zawiera prawdziwy parametr populacji. Szersze przedziały wskazują na mniejszą precyzję.
Wartość odstająca
Punkt danych znacząco różniący się od innych obserwacji. Typowe metody wykrywania obejmują wartości przekraczające ±2 lub ±3 odchylenia standardowe od średniej.
Współczynnik zmienności (CV)
Stosunek odchylenia standardowego do średniej, wyrażony jako procent (CV = σ/μ × 100%). Umożliwia porównanie zmienności między zbiorami danych o różnych skalach.
Skośność
Miara asymetrii rozkładu prawdopodobieństwa. Dodatnia skośność oznacza, że ogon rozciąga się w prawo; ujemna skośność oznacza, że rozciąga się w lewo.
Kurtoza
Miara grubości ogonów rozkładu prawdopodobieństwa. Wysoka kurtoza wskazuje na ciężkie ogony i ostry szczyt; niska kurtoza wskazuje na lekkie ogony i płaski szczyt.
Stopnie swobody (df)
Liczba niezależnych wartości, które mogą się zmieniać w obliczeniu statystycznym. Dla odchylenia standardowego z próby df = n − 1, co odzwierciedla poprawkę Bessela.
Centralne twierdzenie graniczne
Stwierdza, że rozkład z próbkowania średniej próby zbliża się do rozkładu normalnego w miarę wzrostu wielkości próby, niezależnie od rozkładu populacji.
Testowanie hipotez
Metoda statystyczna podejmowania decyzji na podstawie danych. Polega na porównaniu statystyki testowej z wartością krytyczną lub wartością p w celu ustalenia, czy odrzucić hipotezę zerową.
Wartość p
Prawdopodobieństwo zaobserwowania wyniku co najmniej tak ekstremalnego jak statystyka testowa, przy założeniu, że hipoteza zerowa jest prawdziwa. Mniejsze wartości p stanowią silniejsze dowody przeciwko hipotezie zerowej.
Współczynnik korelacji (r)
Wartość między −1 a 1 mierząca siłę i kierunek liniowej zależności między dwiema zmiennymi. Wartości bliskie ±1 wskazują na silną zależność liniową.
Rozstęp międzykwartylowy (IQR)
Różnica między 75. percentylem (Q3) a 25. percentylem (Q1). IQR mierzy rozrzut środkowych 50% danych i jest odporny na wartości odstające.
Percentyl
Wartość, poniżej której znajduje się dany procent obserwacji. Na przykład 90. percentyl to wartość, poniżej której znajduje się 90% punktów danych.