İstatistiksel Anlamlılığın Ötesinde: Etki Büyüklüğünü Anlamak
Etki büyüklüğü, örneklem büyüklüğünden bağımsız olarak bir farkın veya ilişkinin büyüklüğünü ölçer. p-değerleri size bir etkinin istatistiksel olarak anlamlı olup olmadığını söylerken, etki büyüklükleri bu etkinin pratik olarak ne kadar anlamlı olduğunu söyler. Bu ayrım, araştırma, tıp, eğitim ve iş dünyasında kanıta dayalı karar verme için çok önemlidir.
Yeni bir ilacın plaseboya göre istatistiksel olarak anlamlı bir iyileşme (p < 0,001) gösterdiği bir ilaç denemesini düşünün. Etki büyüklüğü olmadan, iyileşmenin %0,1 mi yoksa %50 mi olduğunu bilemezsiniz. Etki büyüklüğü bu kritik bağlamı sağlayarak paydaşların etkinin maliyet, yan etkiler veya uygulama çabasına değip değmeyeceğini belirlemesine yardımcı olur.
İki grubu karşılaştırmak için en yaygın etki büyüklüğü ölçüsü, ortalamalar arasındaki farkı standart sapma birimlerinde ifade eden Cohen’in d’sidir. Bu standartlaştırma, farklı çalışmalar ve ölçüm ölçekleri arasında karşılaştırmayı mümkün kılar.
Etki Büyüklüğü Neden Önemlidir?
İstatistiksel anlamlılık örneklem büyüklüğünden büyük ölçüde etkilenir. Yeterince büyük bir örneklemle önemsiz farklar bile “anlamlı” hale gelir. Tersine, küçük örneklemlerde önemli etkiler anlamlılığa ulaşamayabilir. Etki büyüklüğü, örneklem büyüklüğünden bağımsız bir ölçü sağlayarak bu sorunu çözer.
Anlamlılık Tuzağı
Etki büyüklüğünü kullanmanın temel nedenleri:
- Meta-analiz: Etki büyüklükleri, genel etkileri tahmin etmek için çalışmalar arasında birleştirilebilir
- Güç analizi: Gelecekteki çalışmalar için gerekli örneklem büyüklüklerini hesaplamak için gereklidir
- Pratik kararlar: Müdahalelerin uygulamaya değer olup olmadığını belirlemeye yardımcı olur
- Tekrarlama: Tekrarlama çalışmalarının eşleşmesi gereken bir hedef sağlar
Cohen’in d: Standart Etki Büyüklüğü Ölçüsü
Cohen’in d, iki grup ortalaması arasındaki farkı birleştirilmiş standart sapma birimleriyle ifade eder:
Cohen’in d
Burada M₁ ve M₂ grup ortalamaları, sp ise birleştirilmiş standart sapmadır:
Birleştirilmiş Standart Sapma
d’nin işareti yönü gösterir: M₁ > M₂ olduğunda pozitif, M₁ < M₂ olduğunda negatif. Yön bağlamdan açıkça anlaşıldığında genellikle mutlak değer |d| raporlanır.
Standart Sapma Neden Birleştirilir?
Alternatif Etki Büyüklüğü Ölçüleri
Cohen’in d en yaygın olmakla birlikte, belirli durumlar için alternatifler mevcuttur:
Hedges’ g: Yanlılık Düzeltmeli Etki Büyüklüğü
Cohen’in d, küçük örneklemlerde popülasyon etki büyüklüğünü hafifçe fazla tahmin eder. Hedges’ g bir düzeltme faktörü uygular:
Hedges’ g Düzeltmesi
Grup başına 20’nin üzerindeki örneklemler için fark ihmal edilebilir düzeydedir. Küçük örneklemler (n < 20) için Hedges’ g tercih edilir.
Glass’ın Δ: Varyanslar Farklı Olduğunda
Bir grup bilinen değişkenliğe sahip bir kontrol grubu olduğunda, yalnızca kontrol grubunun standart sapmasını payda olarak kullanın:
Glass’ın Deltası
Bu, tedavinin varyansı etkileyebileceği durumlarda kullanışlıdır (ör. düşük performanslı öğrencilere yüksek performanslılardan daha çok yardımcı olan bir müdahale).
Etki Büyüklüklerini Yorumlama: Cohen’in Kılavuzu
Jacob Cohen, d değerlerini yorumlamak için şu ölçütleri önermiştir:
| Etki Büyüklüğü (d) | Yorum | Örtüşme |
|---|---|---|
| 0,2 | Küçük | Gruplar arası %85 örtüşme |
| 0,5 | Orta | Gruplar arası %67 örtüşme |
| 0,8 | Büyük | Gruplar arası %53 örtüşme |
| 1,2 | Çok Büyük | Gruplar arası %40 örtüşme |
| 2,0 | Devasa | Gruplar arası %19 örtüşme |
Bağlam Önemlidir
Çözümlü Örnek: Eğitim Müdahalesi
Bir okul yeni bir okuma programını test ediyor. Kontrol grubu (n=25): ortalama=72, SS=12. Tedavi grubu (n=30): ortalama=79, SS=14. Cohen’in d’sini hesaplayın:
Birleştirilmiş Varyansı Hesaplayın
Birleştirilmiş SS’yi Hesaplayın
Cohen’in d’sini Hesaplayın
Yorumlayın
Bu, tedavi grubundan rastgele bir öğrenci ve kontrol grubundan rastgele bir öğrenci seçerseniz, tedavi öğrencisinin yaklaşık %64 oranında daha yüksek puan alacağı anlamına gelir (örtüşmeden hesaplanır).
Python Uygulaması
Güven aralıklarıyla etki büyüklüklerini programatik olarak hesaplayın:
import numpy as np
from scipy import stats
def cohens_d(group1, group2):
"""Calculate Cohen's d for two independent groups."""
n1, n2 = len(group1), len(group2)
var1, var2 = np.var(group1, ddof=1), np.var(group2, ddof=1)
# Pooled standard deviation
pooled_std = np.sqrt(((n1-1)*var1 + (n2-1)*var2) / (n1+n2-2))
# Cohen's d
d = (np.mean(group1) - np.mean(group2)) / pooled_std
return d
def hedges_g(group1, group2):
"""Calculate Hedges' g (bias-corrected effect size)."""
n1, n2 = len(group1), len(group2)
d = cohens_d(group1, group2)
# Correction factor for small sample bias
correction = 1 - 3 / (4*(n1+n2) - 9)
return d * correction
# Example usage
control = [68, 72, 75, 70, 69, 74, 71, 73, 76, 72]
treatment = [75, 79, 82, 78, 80, 77, 81, 76, 83, 79]
d = cohens_d(treatment, control)
g = hedges_g(treatment, control)
print(f"Cohen's d: {d:.3f}")
print(f"Hedges' g: {g:.3f}")