Jenseits der statistischen Signifikanz: Effektgrößen verstehen
Die Effektgröße misst das Ausmaß eines Unterschieds oder einer Beziehung, unabhängig von der Stichprobengröße. Während p-Werte Ihnen sagen, ob ein Effekt statistisch signifikant ist, sagen Ihnen Effektgrößen, wie praktisch bedeutsam dieser Effekt ist. Diese Unterscheidung ist entscheidend für evidenzbasierte Entscheidungsfindung in Forschung, Medizin, Bildung und Wirtschaft.
Stellen Sie sich eine pharmazeutische Studie vor, in der ein neues Medikament eine statistisch signifikante Verbesserung (p < 0,001) gegenüber einem Placebo zeigt. Ohne Effektgröße wissen Sie nicht, ob die Verbesserung 0,1 % oder 50 % beträgt. Die Effektgröße liefert diesen entscheidenden Kontext und hilft Entscheidungsträgern zu beurteilen, ob der Effekt die Kosten, Nebenwirkungen oder den Umsetzungsaufwand rechtfertigt.
Das gebräuchlichste Effektgrößenmaß zum Vergleich zweier Gruppen ist Cohens d, das den Mittelwertunterschied in Einheiten der Standardabweichung ausdrückt. Diese Standardisierung ermöglicht Vergleiche über verschiedene Studien und Messskalen hinweg.
Warum Effektgrößen wichtig sind
Statistische Signifikanz wird stark von der Stichprobengröße beeinflusst. Bei ausreichend großer Stichprobe werden selbst triviale Unterschiede "signifikant". Umgekehrt erreichen wichtige Effekte in kleinen Stichproben möglicherweise keine Signifikanz. Die Effektgröße löst dieses Problem durch ein stichprobengrößenunabhängiges Maß.
Die Signifikanzfalle
Wichtige Gründe für die Verwendung von Effektgrößen:
- Meta-Analyse: Effektgrößen können studienübergreifend kombiniert werden, um Gesamteffekte zu schätzen
- Power-Analyse: Erforderlich zur Berechnung notwendiger Stichprobengrößen für zukünftige Studien
- Praktische Entscheidungen: Hilft zu bestimmen, ob Interventionen die Umsetzung wert sind
- Replikation: Liefert eine Zielgröße für Replikationsstudien
Cohens d: Das Standard-Effektgrößenmaß
Cohens d drückt den Unterschied zwischen zwei Gruppenmittelwerten in Einheiten der gepoolten Standardabweichung aus:
Cohens d
Dabei sind M₁ und M₂ die Gruppenmittelwerte und sp die gepoolte Standardabweichung:
Gepoolte Standardabweichung
Das Vorzeichen von d gibt die Richtung an: positiv bei M₁ > M₂, negativ bei M₁ < M₂. Häufig wird der Absolutwert |d| berichtet, wenn die Richtung aus dem Kontext ersichtlich ist.
Warum die Standardabweichung poolen?
Alternative Effektgrößenmaße
Obwohl Cohens d am verbreitetsten ist, existieren Alternativen für spezifische Situationen:
Hedges' g: Verzerrungskorrigierte Effektgröße
Cohens d überschätzt die Populations-Effektgröße bei kleinen Stichproben leicht. Hedges' g wendet einen Korrekturfaktor an:
Hedges' g Korrektur
Für Stichproben über 20 pro Gruppe ist der Unterschied vernachlässigbar. Bei kleinen Stichproben (n < 20) wird Hedges' g bevorzugt.
Glass' Δ: Bei ungleichen Varianzen
Wenn eine Gruppe eine Kontrollgruppe mit bekannter Variabilität ist, verwenden Sie nur die Standardabweichung der Kontrollgruppe als Nenner:
Glass' Delta
Dies ist nützlich, wenn die Behandlung die Varianz beeinflussen könnte (z. B. eine Intervention, die leistungsschwachen Teilnehmern stärker hilft als leistungsstarken).
Effektgrößen interpretieren: Cohens Richtlinien
Jacob Cohen schlug diese Konventionen zur Interpretation von d-Werten vor:
| Effektgröße (d) | Interpretation | Überlappung |
|---|---|---|
| 0,2 | Klein | 85 % Überlappung zwischen Gruppen |
| 0,5 | Mittel | 67 % Überlappung zwischen Gruppen |
| 0,8 | Groß | 53 % Überlappung zwischen Gruppen |
| 1,2 | Sehr groß | 40 % Überlappung zwischen Gruppen |
| 2,0 | Enorm | 19 % Überlappung zwischen Gruppen |
Der Kontext zählt
Rechenbeispiel: Bildungsintervention
Eine Schule testet ein neues Leseprogramm. Kontrollgruppe (n=25): Mittelwert=72, SD=12. Behandlungsgruppe (n=30): Mittelwert=79, SD=14. Berechnen Sie Cohens d:
Gepoolte Varianz berechnen
Gepoolte SD berechnen
Cohens d berechnen
Interpretieren
Das bedeutet: Wenn Sie eine zufällige Person aus der Behandlungsgruppe und eine aus der Kontrollgruppe nehmen, würde die Person aus der Behandlungsgruppe in etwa 64 % der Fälle besser abschneiden (berechnet aus der Überlappung).
Python-Implementierung
Effektgrößen programmgesteuert mit Konfidenzintervallen berechnen:
import numpy as np
from scipy import stats
def cohens_d(group1, group2):
"""Calculate Cohen's d for two independent groups."""
n1, n2 = len(group1), len(group2)
var1, var2 = np.var(group1, ddof=1), np.var(group2, ddof=1)
# Pooled standard deviation
pooled_std = np.sqrt(((n1-1)*var1 + (n2-1)*var2) / (n1+n2-2))
# Cohen's d
d = (np.mean(group1) - np.mean(group2)) / pooled_std
return d
def hedges_g(group1, group2):
"""Calculate Hedges' g (bias-corrected effect size)."""
n1, n2 = len(group1), len(group2)
d = cohens_d(group1, group2)
# Correction factor for small sample bias
correction = 1 - 3 / (4*(n1+n2) - 9)
return d * correction
# Example usage
control = [68, 72, 75, 70, 69, 74, 71, 73, 76, 72]
treatment = [75, 79, 82, 78, 80, 77, 81, 76, 83, 79]
d = cohens_d(treatment, control)
g = hedges_g(treatment, control)
print(f"Cohen's d: {d:.3f}")
print(f"Hedges' g: {g:.3f}")