Σ
SDCalc
Nâng caoNâng cao·14 min

Độ lệch chuẩn gộp cho nhiều nhóm

Tìm hiểu cách tính độ lệch chuẩn gộp để kết hợp dữ liệu từ nhiều nhóm trong kiểm định t và ANOVA.

Độ lệch chuẩn gộp là gì?

Độ lệch chuẩn gộp kết hợp ước lượng phương sai từ hai nhóm trở lên để có một ước lượng có trọng số duy nhất. Nó thiết yếu cho kiểm định t hai mẫu khi giả định phương sai bằng nhau.

Khái niệm rất đơn giản: nếu chúng ta tin hai nhóm đến từ tổng thể có biến thiên cơ bản giống nhau, chúng ta có thể kết hợp dữ liệu để có ước lượng tốt hơn cho biến thiên chung đó. Nhiều dữ liệu hơn nghĩa là ước lượng chính xác hơn.

Hãy nghĩ theo cách này: nếu bạn có 20 quan sát từ Nhóm A và 30 từ Nhóm B, và cả hai nhóm có phương sai thực giống nhau, bạn giờ có 50 quan sát để ước lượng phương sai thay vì ước lượng riêng biệt từ các mẫu nhỏ hơn.

Khi nào gộp

Chỉ gộp độ lệch chuẩn khi bạn có lý do tin rằng phương sai tổng thể cơ bản là bằng nhau. Sử dụng kiểm định Levene hoặc kiểm định F để kiểm tra giả định này trước khi gộp.

Công thức SD gộp

Với hai nhóm, độ lệch chuẩn gộp là:

SD gộp hai nhóm

sp = √[((n₁-1)s₁² + (n₂-1)s₂²) / (n₁+n₂-2)]

Trong đó n₁ và n₂ là kích thước mẫu, s₁ và s₂ là độ lệch chuẩn mẫu.

Với k nhóm (như trong ANOVA), công thức tổng quát hóa:

SD gộp nhiều nhóm

sp = √[Σ(nᵢ-1)sᵢ² / Σ(nᵢ-1)]

Chú ý công thức sử dụng các số hạng (n-1) ở cả tử số và mẫu số. Trọng số này đảm bảo mẫu lớn hơn đóng góp nhiều hơn vào ước lượng gộp, điều này phù hợp vì mẫu lớn hơn cung cấp ước lượng phương sai đáng tin cậy hơn.

Giả định cơ bản

Độ lệch chuẩn gộp giả định tính đồng nhất phương sai—rằng tất cả nhóm chia sẻ cùng phương sai tổng thể. Giả định này quan trọng nhất khi:

  • Kích thước mẫu không đều (đặc biệt có vấn đề khi nhóm lớn hơn có phương sai nhỏ hơn)
  • Tỷ lệ phương sai lớn nhất trên nhỏ nhất vượt quá 2-3
  • Kích thước mẫu nhỏ (mẫu lớn bền vững hơn với vi phạm)

Khi phương sai khác nhau

Nếu phương sai không bằng nhau, hãy dùng kiểm định t của Welch thay vì kiểm định t gộp, hoặc sử dụng ước lượng phương sai riêng biệt. Kiểm định Welch không giả định phương sai bằng nhau và thường được khuyến nghị làm phương pháp mặc định.

Ví dụ có lời giải

Tình huống: So sánh điểm thi giữa hai lớp:

  • Lớp A: n₁ = 25, trung bình = 78, s₁ = 12
  • Lớp B: n₂ = 30, trung bình = 82, s₂ = 14

Tính SD gộp:

sp = √[((25-1)(12)² + (30-1)(14)²) / (25+30-2)] sp = √[(24×144 + 29×196) / 53] sp = √[(3456 + 5684) / 53] sp = √[9140 / 53] = √172,45 = 13,13

SD gộp 13,13 nằm giữa các SD riêng lẻ (12 và 14), nghiêng về phía mẫu lớn hơn. Giá trị gộp này sau đó được dùng trong công thức kiểm định t hoặc tính Cohen's d.

Ứng dụng thống kê

  • Kiểm định t mẫu độc lập: SD gộp được dùng để tính sai số chuẩn của hiệu trung bình.
  • Độ lớn hiệu ứng Cohen's d: Độ lớn hiệu ứng được chuẩn hóa bằng SD gộp: d = (M₁ - M₂) / sp
  • ANOVA: Trung bình bình phương sai số (MSE) trong ANOVA về cơ bản là ước lượng phương sai gộp giữa tất cả các nhóm.
  • Phân tích tổng hợp: Khi kết hợp các nghiên cứu, ước lượng gộp giúp chuẩn hóa hiệu ứng qua các bối cảnh khác nhau.