Phương sai là gì?
Phương sai (ký hiệu là σ² đối với tổng thể và s² đối với mẫu) là thước đo thống kê về mức độ phân tán của các số liệu trong một tập dữ liệu. Nó đại diện cho trung bình bình phương của các khoảng cách đến Giá trị trung bình (μ). Việc bình phương độ lệch giúp phương sai đảm bảo các độ lệch âm và dương không triệt tiêu lẫn nhau, từ đó phản ánh chính xác mức độ phân tán. Tuy nhiên, do các độ lệch đã được bình phương, đơn vị của phương sai sẽ là bình phương đơn vị của dữ liệu gốc, khiến cho việc diễn giải trực tiếp trở nên khá trừu tượng.
Phương sai tổng thể
Đơn vị đo lường
Độ lệch chuẩn là gì?
Độ lệch chuẩn (ký hiệu là σ đối với tổng thể và s đối với mẫu) là căn bậc hai của phương sai. Nó đo lường mức độ lệch trung bình của từng điểm dữ liệu so với giá trị trung bình. Do được tính bằng cách lấy căn bậc hai của phương sai, độ lệch chuẩn được biểu diễn bằng cùng đơn vị với dữ liệu gốc, giúp nó trực quan và dễ diễn giải hơn rất nhiều trong các ứng dụng thực tế. Đây là thước đo phân tán thống kê được sử dụng phổ biến nhất.
Độ lệch chuẩn tổng thể
Độ lệch chuẩn vs Phương sai: Điểm khác biệt cốt lõi
Mặc dù cả hai chỉ số đều lượng hóa mức độ phân tán của các điểm dữ liệu quanh giá trị trung bình, mối quan hệ toán học và tính ứng dụng thực tiễn của chúng lại khác biệt đáng kể. Điểm khác biệt cơ bản nằm ở đơn vị đo lường và khả năng diễn giải. Độ lệch chuẩn là căn bậc hai của phương sai, đưa thước đo phân tán trở về cùng đơn vị với dữ liệu gốc. Trong khi đó, phương sai do là giá trị bình phương nên sẽ gán trọng số lớn hơn cho các giá trị ngoại lai, khiến nó cực kỳ nhạy cảm với các giá trị cực đoan.
| Tiêu chí | Phương sai (σ² / s²) | Độ lệch chuẩn (σ / s) |
|---|---|---|
| Cơ sở toán học | Trung bình bình phương các độ lệch | Căn bậc hai của phương sai |
| Đơn vị | Bình phương đơn vị (vd: cm², VNĐ²) | Đơn vị gốc (vd: cm, VNĐ) |
| Khả năng diễn giải | Trừu tượng; khó liên hệ với dữ liệu | Trực quan; ánh xạ trực tiếp đến dữ liệu |
| Độ nhạy với giá trị ngoại lai | Cao (do bình phương) | Trung bình (căn bậc hai làm giảm tác động) |
| Ứng dụng chính | Suy luận thống kê, ANOVA, Lý thuyết danh mục đầu tư | Thống kê mô tả, Báo cáo, Quy tắc kinh nghiệm |
Công thức tính cho Tổng thể và Mẫu
Khi tính toán các chỉ số này, bạn phải phân biệt rõ giữa tổng thể và mẫu. Tổng thể bao gồm tất cả các thành viên của một nhóm được chỉ định, trong khi mẫu là một tập con của tổng thể đó. Việc sử dụng công thức mẫu với mẫu số là (n - 1) — hay còn gọi là hiệu chỉnh Bessel — giúp khắc phục thiên kiến cố hữu khi ước lượng phương sai tổng thể từ mẫu, đảm bảo bộ ước lượng không bị chệch.
Phương sai mẫu
Tránh nhầm lẫn giữa n và n-1
Khi nào nên dùng Phương sai hay Độ lệch chuẩn?
Việc lựa chọn giữa phương sai và độ lệch chuẩn hoàn toàn phụ thuộc vào mục tiêu phân tích của bạn. Nếu bạn đang truyền đạt mức độ phân tán dữ liệu cho những người không chuyên về kỹ thuật, độ lệch chuẩn là lựa chọn tối ưu vì nó cùng đơn vị tự nhiên với dữ liệu. Tuy nhiên, nếu bạn đang thực hiện các phép tính thống kê trung gian — chẳng hạn như tính thống kê F trong ANOVA, đánh giá rủi ro trong lý thuyết danh mục đầu tư hiện đại, hoặc kiểm định giả thuyết — phương sai lại thuận tiện hơn về mặt toán học.
Dùng Phương sai khi...
Dùng Độ lệch chuẩn khi...
Tính Độ lệch chuẩn và Phương sai bằng Python
Thư viện `statistics` của Python cung cấp các hàm tích hợp sẵn cho cả phương sai và độ lệch chuẩn. Khi sử dụng các hàm này, điều quan trọng là phải chọn đúng phương pháp dựa trên việc dữ liệu của bạn đại diện cho tổng thể hay mẫu.
import statistics
# Tập dữ liệu mẫu
data = [14, 18, 12, 15, 11]
# Tính Phương sai và Độ lệch chuẩn của Mẫu
sample_var = statistics.variance(data)
sample_sd = statistics.stdev(data)
# Tính Phương sai và Độ lệch chuẩn của Tổng thể
pop_var = statistics.pvariance(data)
pop_sd = statistics.pstdev(data)
print(f"Sample Variance: {sample_var:.2f}")
print(f"Sample SD: {sample_sd:.2f}")
print(f"Population Variance: {pop_var:.2f}")
print(f"Population SD: {pop_sd:.2f}")Các câu hỏi thường gặp
- Phương sai có thể âm không? Không, vì tổng các độ lệch bình phương (xᵢ - μ)² luôn luôn bằng không hoặc mang giá trị dương, nên phương sai không bao giờ âm.
- Tại sao độ lệch chuẩn lại được ưu tiên hơn phương sai khi báo cáo? Độ lệch chuẩn được ưa chuộng vì nó có cùng đơn vị với giá trị trung bình, giúp việc đặt vào bối cảnh và diễn giải cùng với dữ liệu thô trở nên dễ dàng hơn nhiều.
- Phương sai có giống với sai số bình phương trung bình (MSE) không? Chúng có điểm tương đồng, nhưng MSE thường đo lường độ lệch bình phương trung bình giữa giá trị ước lượng và giá trị thực tế, trong khi phương sai đo lường mức độ phân tán quanh giá trị trung bình. Nếu bộ ước lượng chính là giá trị trung bình, thì MSE bằng phương sai.
Further Reading
Sources
References and further authoritative reading used in preparing this article.