Statistik-Glossar

Wichtige statistische Begriffe und Definitionen

general

Standardabweichung (σ / s)

Ein Maß für das Ausmaß der Variation oder Streuung in einer Menge von Werten. Sie ist die Quadratwurzel der Varianz und wird in denselben Einheiten wie die Daten ausgedrückt.

Varianz (σ² / s²)

Der Durchschnitt der quadrierten Abweichungen vom Mittelwert. Die Varianz quantifiziert den Grad der Streuung in einem Datensatz und ist das Quadrat der Standardabweichung.

Mittelwert (μ / x̄)

Das arithmetische Mittel einer Menge von Werten, berechnet durch Summierung aller Werte und Division durch die Anzahl. Er repräsentiert die zentrale Tendenz der Daten.

Median

Der mittlere Wert in einem sortierten Datensatz. Wenn es eine gerade Anzahl von Werten gibt, ist der Median der Durchschnitt der beiden mittleren Werte. Er ist robust gegenüber Ausreißern.

Modus

Der Wert, der in einem Datensatz am häufigsten vorkommt. Ein Datensatz kann einen Modus haben (unimodal), mehrere Modi (multimodal) oder gar keinen Modus.

Spannweite

Die Differenz zwischen dem größten und kleinsten Wert in einem Datensatz. Obwohl einfach zu berechnen, berücksichtigt sie nur die beiden Extremwerte und ist empfindlich gegenüber Ausreißern.

Population

Die vollständige Menge aller Individuen oder Beobachtungen von Interesse in einer Studie. Populationsparameter werden typischerweise mit griechischen Buchstaben bezeichnet (μ, σ).

Stichprobe

Eine Teilmenge einer Population, die zur Analyse ausgewählt wird. Stichprobenstatistiken werden typischerweise mit lateinischen Buchstaben bezeichnet (x̄, s) und dienen zur Schätzung von Populationsparametern.

Bessel-Korrektur

Die Verwendung von n−1 anstelle von n im Nenner bei der Berechnung der Stichprobenvarianz. Diese Korrektur liefert eine erwartungstreue Schätzung der Populationsvarianz aus einer Stichprobe.

Normalverteilung

Eine symmetrische, glockenförmige Wahrscheinlichkeitsverteilung, bei der Mittelwert, Median und Modus alle gleich sind. Viele natürliche Phänomene folgen einer annähernd normalen Verteilung.

Empirische Regel (68-95-99,7)

Für normalverteilte Daten fallen ungefähr 68 % der Werte innerhalb von ±1σ, 95 % innerhalb von ±2σ und 99,7 % innerhalb von ±3σ vom Mittelwert.

Z-Wert

Die Anzahl der Standardabweichungen, die ein Datenpunkt vom Mittelwert entfernt ist, berechnet als Z = (X − μ) / σ. Z-Werte ermöglichen den Vergleich von Werten aus verschiedenen Verteilungen.

Standardfehler (SE)

Die Standardabweichung der Stichprobenverteilung einer Statistik, am häufigsten des Mittelwerts. SE = σ/√n, nimmt mit zunehmender Stichprobengröße ab.

Konfidenzintervall

Ein Wertebereich, der den wahren Populationsparameter mit einem bestimmten Konfidenzniveau (z. B. 95 %) wahrscheinlich enthält. Breitere Intervalle deuten auf weniger Präzision hin.

Ausreißer

Ein Datenpunkt, der sich signifikant von anderen Beobachtungen unterscheidet. Häufige Erkennungsmethoden umfassen Werte jenseits von ±2 oder ±3 Standardabweichungen vom Mittelwert.

Variationskoeffizient (CV)

Das Verhältnis der Standardabweichung zum Mittelwert, ausgedrückt als Prozentsatz (CV = σ/μ × 100 %). Ermöglicht den Vergleich der Variabilität zwischen Datensätzen mit verschiedenen Skalen.

Schiefe

Ein Maß für die Asymmetrie einer Wahrscheinlichkeitsverteilung. Positive Schiefe bedeutet, dass der Schwanz nach rechts reicht; negative Schiefe bedeutet, dass er nach links reicht.

Kurtosis (Wölbung)

Ein Maß für die Schwere der Schwänze einer Wahrscheinlichkeitsverteilung. Hohe Kurtosis deutet auf schwere Schwänze und einen scharfen Gipfel hin; niedrige Kurtosis deutet auf leichte Schwänze und einen flachen Gipfel hin.

Freiheitsgrade (df)

Die Anzahl der unabhängigen Werte, die in einer statistischen Berechnung variieren können. Für die Stichproben-Standardabweichung gilt df = n − 1, was die Bessel-Korrektur widerspiegelt.

Zentraler Grenzwertsatz

Besagt, dass die Stichprobenverteilung des Stichprobenmittelwerts sich einer Normalverteilung annähert, wenn die Stichprobengröße zunimmt, unabhängig von der Verteilung der Population.

Hypothesentest

Eine statistische Methode zur Entscheidungsfindung auf der Grundlage von Daten. Sie umfasst den Vergleich einer Teststatistik mit einem kritischen Wert oder p-Wert, um zu bestimmen, ob die Nullhypothese abgelehnt werden soll.

P-Wert

Die Wahrscheinlichkeit, ein Ergebnis zu beobachten, das mindestens so extrem ist wie die Teststatistik, unter der Annahme, dass die Nullhypothese wahr ist. Kleinere p-Werte liefern stärkere Evidenz gegen die Nullhypothese.

Korrelationskoeffizient (r)

Ein Wert zwischen −1 und 1, der die Stärke und Richtung der linearen Beziehung zwischen zwei Variablen misst. Werte nahe ±1 deuten auf eine starke lineare Beziehung hin.

Interquartilsabstand (IQR)

Die Differenz zwischen dem 75. Perzentil (Q3) und dem 25. Perzentil (Q1). Der IQR misst die Streuung der mittleren 50 % der Daten und ist robust gegenüber Ausreißern.

Perzentil

Ein Wert, unter dem ein bestimmter Prozentsatz der Beobachtungen liegt. Zum Beispiel ist das 90. Perzentil der Wert, unter dem 90 % der Datenpunkte liegen.