How should I interpret a high standard deviation?

A high standard deviation means the observations are spread farther from the mean on average. Whether that spread is acceptable depends on the context: wide dispersion might signal risk in finance, instability in manufacturing, or genuine natural variation in scientific data.

Why do some articles mention n while others mention n-1?

The denominator reflects the difference between population and sample formulas. Population variance and population standard deviation use N because the full dataset is known. Sample variance and sample standard deviation often use n-1 because Bessel’s correction reduces bias when estimating population spread from a sample.

What is a statistical interpretation guide?

A statistical interpretation guide is a page that moves beyond arithmetic and explains meaning. It tells you what a metric is, when the formula applies, and how to describe the result in plain English without overstating certainty.

Can I cite this article in a report?

You should cite the underlying authoritative reference for formal work whenever possible. This page is best used as an explanatory bridge that helps you understand the concept before quoting the original standard or handbook.

Why include direct citations on every article page?

Direct citations give readers a route to verify the definition, notation, and assumptions. That improves trust and reduces the chance that a simplified explanation is mistaken for the entire technical standard.

d Коена та обчислення розміру ефекту

За межами статистичної значущості: розуміння розміру ефекту

Розмір ефекту вимірює величину різниці або зв’язку незалежно від обсягу вибірки. Тоді як p-значення повідомляють, чи є ефект статистично значущим, розмір ефекту показує, наскільки він практично значущий. Це розрізнення є критично важливим для прийняття рішень на основі доказів у дослідженнях, медицині, освіті та бізнесі.

Розглянемо фармацевтичне випробування, де новий препарат демонструє статистично значуще покращення (p < 0,001) порівняно з плацебо. Без розміру ефекту ви не знаєте, чи покращення становить 0,1% чи 50%. Розмір ефекту забезпечує цей критично важливий контекст, допомагаючи зацікавленим сторонам визначити, чи вартий ефект витрат, побічних дій або зусиль на впровадження.

Найпоширенішою мірою розміру ефекту для порівняння двох груп є d Коена, який виражає різницю між середніми в одиницях стандартного відхилення. Така стандартизація дозволяє порівнювати результати різних досліджень із різними шкалами вимірювання.

Чому розмір ефекту важливий

На статистичну значущість сильно впливає обсяг вибірки. За достатньо великої вибірки навіть тривіальні різниці стають “значущими”. І навпаки, важливі ефекти можуть не досягти значущості в малих вибірках. Розмір ефекту вирішує цю проблему, надаючи міру, незалежну від обсягу вибірки.

Пастка значущості

Дослідження з n=10 000 може показати p < 0,001 для різниці в 0,5 бала зі 100. Це статистично значуще, але практично беззмістовне (d ≈ 0,05). Завжди повідомляйте розмір ефекту разом із p-значеннями.

Основні причини використовувати розмір ефекту:

Метааналіз: розміри ефектів можна об’єднувати між дослідженнями для оцінки загального ефекту
Аналіз потужності: необхідний для розрахунку потрібного обсягу вибірки в майбутніх дослідженнях
Практичні рішення: допомагає визначити, чи варто впроваджувати інтервенції
Реплікація: забезпечує цільовий показник для відтворення в реплікаційних дослідженнях

d Коена: стандартна міра розміру ефекту

d Коена виражає різницю між середніми двох груп в одиницях об’єднаного стандартного відхилення:

Cohen's d

d = (M₁ - M₂) / sp

Де M₁ та M₂ — середні груп, а sp — об’єднане стандартне відхилення, що обчислюється як:

Pooled Standard Deviation

sp = √[((n₁-1)s₁² + (n₂-1)s₂²) / (n₁+n₂-2)]

Знак d вказує напрямок: додатний, коли M₁ > M₂, від’ємний, коли M₁ < M₂. Часто повідомляється абсолютне значення |d|, коли напрямок очевидний із контексту.

Навіщо об’єднувати стандартне відхилення?

Об’єднання передбачає, що обидві групи мають рівні дисперсії генеральних сукупностей. Це дає стабільнішу оцінку, ніж використання СВ лише однієї групи, і відповідає припущенням t-тесту для незалежних вибірок.

Альтернативні міри розміру ефекту

Хоча d Коена є найпоширенішим, для певних ситуацій існують альтернативи:

g Геджеса: розмір ефекту з корекцією зміщення

d Коена дещо завищує розмір ефекту генеральної сукупності при малих вибірках. g Геджеса застосовує коригувальний множник:

Hedges' g Correction

g = d × (1 - 3/(4(n₁+n₂) - 9))

Для вибірок понад 20 осіб у групі різниця є незначною. Для малих вибірок (n < 20) рекомендується використовувати g Геджеса.

Дельта Гласса: коли дисперсії різняться

Коли одна група є контрольною з відомою варіабельністю, як знаменник використовується лише стандартне відхилення контрольної групи:

Glass's Delta

Δ = (M₁ - M₂) / s_control

Це корисно, коли втручання може впливати на дисперсію (наприклад, інтервенція, яка допомагає слабким учням більше, ніж сильним).

Інтерпретація розмірів ефекту: рекомендації Коена

Якоб Коен запропонував такі конвенції для інтерпретації значень d:

Розмір ефекту (d)	Інтерпретація	Перекриття
0.2	Малий	85% перекриття між групами
0.5	Середній	67% перекриття між групами
0.8	Великий	53% перекриття між групами
1.2	Дуже великий	40% перекриття між групами
2.0	Величезний	19% перекриття між групами

Контекст має значення

Це приблизні орієнтири, а не абсолютні правила. У деяких галузях d = 0,2 може бути надзвичайно значущим (наприклад, зниження ризику інфаркту), тоді як в інших d = 0,8 є очікуваним (наприклад, репетиторство порівняно з відсутністю навчання).

Розібраний приклад: освітня інтервенція

Школа тестує нову програму читання. Контрольна група (n=25): середнє=72, СВ=12. Експериментальна група (n=30): середнє=79, СВ=14. Обчисліть d Коена:

Обчислити об’єднану дисперсію

sp² = [(25-1)(12)² + (30-1)(14)²] / (25+30-2) = [24×144 + 29×196] / 53 = [3456 + 5684] / 53 = 172,45

Обчислити об’єднане СВ

sp = √172,45 = 13,13

Обчислити d Коена

d = (79 - 72) / 13,13 = 7 / 13,13 = 0,53

Інтерпретувати

Середній розмір ефекту (d = 0,53). Експериментальна група набирає приблизно на половину стандартного відхилення вище за контрольну.

Це означає, що якщо взяти випадкового учня з експериментальної групи та випадкового учня з контрольної, учень з експериментальної групи отримає вищий бал приблизно в 64% випадків (розраховано за перекриттям).

Реалізація на Python

Програмне обчислення розмірів ефекту з довірчими інтервалами:

python

import numpy as np
from scipy import stats

def cohens_d(group1, group2):
    """Calculate Cohen's d for two independent groups."""
    n1, n2 = len(group1), len(group2)
    var1, var2 = np.var(group1, ddof=1), np.var(group2, ddof=1)

    # Pooled standard deviation
    pooled_std = np.sqrt(((n1-1)*var1 + (n2-1)*var2) / (n1+n2-2))

    # Cohen's d
    d = (np.mean(group1) - np.mean(group2)) / pooled_std
    return d

def hedges_g(group1, group2):
    """Calculate Hedges' g (bias-corrected effect size)."""
    n1, n2 = len(group1), len(group2)
    d = cohens_d(group1, group2)

    # Correction factor for small sample bias
    correction = 1 - 3 / (4*(n1+n2) - 9)
    return d * correction

# Example usage
control = [68, 72, 75, 70, 69, 74, 71, 73, 76, 72]
treatment = [75, 79, 82, 78, 80, 77, 81, 76, 83, 79]

d = cohens_d(treatment, control)
g = hedges_g(treatment, control)
print(f"Cohen's d: {d:.3f}")
print(f"Hedges' g: {g:.3f}")

Reading goal	What to focus on	Common mistake
Definition	What the metric is and what quantity it summarizes	Treating the formula as self-explanatory
Formula choice	Sample versus population assumptions and notation	Using n when n-1 is required or vice versa
Interpretation	Whether the result indicates concentration, spread, or risk	Calling a large value good or bad without context