Słownik Statystyczny

Kluczowe terminy i definicje statystyczne

general

Odchylenie standardowe (σ / s)

Miara wielkości zmienności lub rozproszenia w zbiorze wartości. Jest to pierwiastek kwadratowy z wariancji i jest wyrażona w tych samych jednostkach co dane.

Wariancja (σ² / s²)

Średnia kwadratów odchyleń od średniej. Wariancja określa ilościowo stopień rozproszenia w zbiorze danych i jest kwadratem odchylenia standardowego.

Średnia (μ / x̄)

Średnia arytmetyczna zbioru wartości, obliczana przez zsumowanie wszystkich wartości i podzielenie przez ich liczbę. Reprezentuje tendencję centralną danych.

Mediana

Wartość środkowa w posortowanym zbiorze danych. Jeśli jest parzysta liczba wartości, mediana jest średnią dwóch środkowych wartości. Jest odporna na wartości odstające.

Dominanta

Wartość pojawiająca się najczęściej w zbiorze danych. Zbiór danych może mieć jedną dominantę (jednomodowy), wiele dominant (wielomodowy) lub nie mieć dominanty wcale.

Rozstęp

Różnica między największą a najmniejszą wartością w zbiorze danych. Choć prosty w obliczeniu, uwzględnia tylko dwie wartości skrajne i jest wrażliwy na wartości odstające.

Populacja

Pełny zbiór wszystkich jednostek lub obserwacji będących przedmiotem zainteresowania w badaniu. Parametry populacji są zazwyczaj oznaczane literami greckimi (μ, σ).

Próba

Podzbiór populacji wybrany do analizy. Statystyki próby są zazwyczaj oznaczane literami łacińskimi (x̄, s) i służą do szacowania parametrów populacji.

Poprawka Bessela

Użycie n−1 zamiast n w mianowniku przy obliczaniu wariancji próby. Ta poprawka zapewnia nieobciążony estymator wariancji populacji na podstawie próby.

Rozkład normalny

Symetryczny, dzwonowaty rozkład prawdopodobieństwa, w którym średnia, mediana i dominanta są sobie równe. Wiele zjawisk naturalnych w przybliżeniu podlega rozkładowi normalnemu.

Reguła empiryczna (68-95-99,7)

Dla danych o rozkładzie normalnym, około 68% wartości mieści się w zakresie ±1σ, 95% w zakresie ±2σ, a 99,7% w zakresie ±3σ od średniej.

Wynik Z

Liczba odchyleń standardowych, o jaką punkt danych odbiega od średniej, obliczana jako Z = (X − μ) / σ. Wyniki Z umożliwiają porównanie wartości z różnych rozkładów.

Błąd standardowy (SE)

Odchylenie standardowe rozkładu z próbkowania statystyki, najczęściej średniej. SE = σ/√n, maleje wraz ze wzrostem wielkości próby.

Przedział ufności

Zakres wartości, który z określonym poziomem ufności (np. 95%) prawdopodobnie zawiera prawdziwy parametr populacji. Szersze przedziały wskazują na mniejszą precyzję.

Wartość odstająca

Punkt danych znacząco różniący się od innych obserwacji. Typowe metody wykrywania obejmują wartości przekraczające ±2 lub ±3 odchylenia standardowe od średniej.

Współczynnik zmienności (CV)

Stosunek odchylenia standardowego do średniej, wyrażony jako procent (CV = σ/μ × 100%). Umożliwia porównanie zmienności między zbiorami danych o różnych skalach.

Skośność

Miara asymetrii rozkładu prawdopodobieństwa. Dodatnia skośność oznacza, że ogon rozciąga się w prawo; ujemna skośność oznacza, że rozciąga się w lewo.

Kurtoza

Miara grubości ogonów rozkładu prawdopodobieństwa. Wysoka kurtoza wskazuje na ciężkie ogony i ostry szczyt; niska kurtoza wskazuje na lekkie ogony i płaski szczyt.

Stopnie swobody (df)

Liczba niezależnych wartości, które mogą się zmieniać w obliczeniu statystycznym. Dla odchylenia standardowego z próby df = n − 1, co odzwierciedla poprawkę Bessela.

Centralne twierdzenie graniczne

Stwierdza, że rozkład z próbkowania średniej próby zbliża się do rozkładu normalnego w miarę wzrostu wielkości próby, niezależnie od rozkładu populacji.

Testowanie hipotez

Metoda statystyczna podejmowania decyzji na podstawie danych. Polega na porównaniu statystyki testowej z wartością krytyczną lub wartością p w celu ustalenia, czy odrzucić hipotezę zerową.

Wartość p

Prawdopodobieństwo zaobserwowania wyniku co najmniej tak ekstremalnego jak statystyka testowa, przy założeniu, że hipoteza zerowa jest prawdziwa. Mniejsze wartości p stanowią silniejsze dowody przeciwko hipotezie zerowej.

Współczynnik korelacji (r)

Wartość między −1 a 1 mierząca siłę i kierunek liniowej zależności między dwiema zmiennymi. Wartości bliskie ±1 wskazują na silną zależność liniową.

Rozstęp międzykwartylowy (IQR)

Różnica między 75. percentylem (Q3) a 25. percentylem (Q1). IQR mierzy rozrzut środkowych 50% danych i jest odporny na wartości odstające.

Percentyl

Wartość, poniżej której znajduje się dany procent obserwacji. Na przykład 90. percentyl to wartość, poniżej której znajduje się 90% punktów danych.