Độ lệch chuẩn gộp là gì?
Độ lệch chuẩn gộp kết hợp ước lượng phương sai từ hai nhóm trở lên để có một ước lượng có trọng số duy nhất. Nó thiết yếu cho kiểm định t hai mẫu khi giả định phương sai bằng nhau.
Khái niệm rất đơn giản: nếu chúng ta tin hai nhóm đến từ tổng thể có biến thiên cơ bản giống nhau, chúng ta có thể kết hợp dữ liệu để có ước lượng tốt hơn cho biến thiên chung đó. Nhiều dữ liệu hơn nghĩa là ước lượng chính xác hơn.
Hãy nghĩ theo cách này: nếu bạn có 20 quan sát từ Nhóm A và 30 từ Nhóm B, và cả hai nhóm có phương sai thực giống nhau, bạn giờ có 50 quan sát để ước lượng phương sai thay vì ước lượng riêng biệt từ các mẫu nhỏ hơn.
Khi nào gộp
Công thức SD gộp
Với hai nhóm, độ lệch chuẩn gộp là:
SD gộp hai nhóm
Trong đó n₁ và n₂ là kích thước mẫu, s₁ và s₂ là độ lệch chuẩn mẫu.
Với k nhóm (như trong ANOVA), công thức tổng quát hóa:
SD gộp nhiều nhóm
Chú ý công thức sử dụng các số hạng (n-1) ở cả tử số và mẫu số. Trọng số này đảm bảo mẫu lớn hơn đóng góp nhiều hơn vào ước lượng gộp, điều này phù hợp vì mẫu lớn hơn cung cấp ước lượng phương sai đáng tin cậy hơn.
Giả định cơ bản
Độ lệch chuẩn gộp giả định tính đồng nhất phương sai—rằng tất cả nhóm chia sẻ cùng phương sai tổng thể. Giả định này quan trọng nhất khi:
- Kích thước mẫu không đều (đặc biệt có vấn đề khi nhóm lớn hơn có phương sai nhỏ hơn)
- Tỷ lệ phương sai lớn nhất trên nhỏ nhất vượt quá 2-3
- Kích thước mẫu nhỏ (mẫu lớn bền vững hơn với vi phạm)
Khi phương sai khác nhau
Ví dụ có lời giải
Tình huống: So sánh điểm thi giữa hai lớp:
- Lớp A: n₁ = 25, trung bình = 78, s₁ = 12
- Lớp B: n₂ = 30, trung bình = 82, s₂ = 14
Tính SD gộp:
sp = √[((25-1)(12)² + (30-1)(14)²) / (25+30-2)] sp = √[(24×144 + 29×196) / 53] sp = √[(3456 + 5684) / 53] sp = √[9140 / 53] = √172,45 = 13,13
SD gộp 13,13 nằm giữa các SD riêng lẻ (12 và 14), nghiêng về phía mẫu lớn hơn. Giá trị gộp này sau đó được dùng trong công thức kiểm định t hoặc tính Cohen's d.
Ứng dụng thống kê
- Kiểm định t mẫu độc lập: SD gộp được dùng để tính sai số chuẩn của hiệu trung bình.
- Độ lớn hiệu ứng Cohen's d: Độ lớn hiệu ứng được chuẩn hóa bằng SD gộp: d = (M₁ - M₂) / sp
- ANOVA: Trung bình bình phương sai số (MSE) trong ANOVA về cơ bản là ước lượng phương sai gộp giữa tất cả các nhóm.
- Phân tích tổng hợp: Khi kết hợp các nghiên cứu, ước lượng gộp giúp chuẩn hóa hiệu ứng qua các bối cảnh khác nhau.