Độ lệch chuẩn là gì?
Độ lệch chuẩn là một thước đo thống kê dùng để lượng hóa mức độ biến thiên hoặc độ phân tán trong một tập hợp các giá trị dữ liệu. Độ lệch chuẩn thấp cho thấy các điểm dữ liệu có xu hướng nằm gần giá trị trung bình (kỳ vọng) của tập hợp, trong khi độ lệch chuẩn cao cho thấy các điểm dữ liệu trải dài ra một phạm vi giá trị rộng hơn. Được ký hiệu bằng chữ cái Hy Lạp σ (sigma) cho quần thể và s cho mẫu, đây là một trong những khái niệm cơ bản nhất trong thống kê mô tả.
Định nghĩa cốt lõi
Độ lệch chuẩn của Quần thể và Mẫu
Trước khi tính độ lệch chuẩn, bạn phải xác định dữ liệu của mình đại diện cho toàn bộ quần thể hay chỉ là một mẫu của quần thể đó. Quần thể bao gồm tất cả các thành viên của một nhóm được chỉ định, trong khi mẫu là một tập con đại diện của nhóm đó. Việc tính độ lệch chuẩn cho mẫu cần một điều chỉnh toán học—sử dụng n - 1 (bậc tự do, hay df) thay vì N—để đảm bảo kết quả là một ước lượng không thiên lệch của phương sai quần thể.
Độ lệch chuẩn của Quần thể
Độ lệch chuẩn của Mẫu
Giải thích Công thức Độ lệch chuẩn
Các công thức tính độ lệch chuẩn dựa trên việc tính phương sai trước, sau đó lấy căn bậc hai. Bước lấy căn bậc hai này rất quan trọng vì nó trả thước đo độ phân tán về lại đơn vị gốc của dữ liệu. Các thành phần chính bao gồm xᵢ (mỗi giá trị riêng lẻ), μ hoặc x̄ (giá trị trung bình của quần thể hoặc mẫu), và N hoặc n (tổng số giá trị).
Độ lệch chuẩn Quần thể
Độ lệch chuẩn Mẫu
Ví dụ Tính toán Từng bước
Hãy cùng tính độ lệch chuẩn mẫu cho một tập dữ liệu nhỏ về điểm kiểm tra: [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]. Việc làm theo công thức từng bước sẽ cho thấy phương sai tích lũy như thế nào trước khi chúng ta lấy căn bậc hai cuối cùng.
Tính Giá trị trung bình (x̄)
Trừ đi Giá trị trung bình và Bình phương Kết quả
Tổng các Hiệu bình phương
Chia cho n - 1 (Bậc tự do)
Lấy Căn bậc hai
Tính Độ lệch chuẩn trong Python
Tính toán độ lệch chuẩn thủ công rất dễ xảy ra sai sót, đặc biệt với các tập dữ liệu lớn. Trong thực tế, các nhà thống kê và khoa học dữ liệu sử dụng các ngôn ngữ lập trình như Python để tính toán ngay lập tức bằng các thư viện có sẵn.
import statistics
data = [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]
# Tính độ lệch chuẩn mẫu (mặc định)
sample_sd = statistics.stdev(data)
print(f"Sample SD: {sample_sd:.2f}")
# Tính độ lệch chuẩn quần thể
pop_sd = statistics.pstdev(data)
print(f"Population SD: {pop_sd:.2f}")Quy tắc Thực nghiệm và Độ lệch chuẩn
Khi dữ liệu tuân theo phân phối chuẩn (đường cong hình chuông), độ lệch chuẩn trở nên có tính dự đoán cực kỳ cao. Quy tắc Thực nghiệm, còn được gọi là quy tắc 68-95-99.7, phát biểu rằng gần như toàn bộ dữ liệu sẽ nằm trong ba độ lệch chuẩn so với giá trị trung bình. Điều này giúp các nhà phân tích nhanh chóng xác định các giá trị ngoại lai và hiểu được xác suất xảy ra của một quan sát cụ thể.
| Khoảng cách từ Giá trị trung bình | Tỷ lệ Dữ liệu | Ứng dụng |
|---|---|---|
| ±1σ | 68.27% | Xác định các giá trị điển hình, thường ngày |
| ±2σ | 95.45% | Thiết lập khoảng tin cậy |
| ±3σ | 99.73% | Phát hiện các giá trị ngoại lai cực đoan |
Độ lệch chuẩn so với Phương sai
Phương sai và độ lệch chuẩn là các thước đo độ phân tán có mối liên hệ chặt chẽ với nhau. Phương sai (σ² hoặc s²) là trung bình của các bình phương khoảng cách so với Giá trị trung bình, trong khi độ lệch chuẩn là căn bậc hai của phương sai. Vì phương sai được biểu diễn dưới dạng đơn vị bình phương (ví dụ: đồngVN bình phương, cm vuông), nên nó có thể khó diễn giải trong bối cảnh của dữ liệu gốc. Độ lệch chuẩn giải quyết vấn đề này bằng cách chuyển đổi thước đo trở về đơn vị gốc.
Báo cáo Dữ liệu của bạn
Những sai lầm thường gặp cần tránh
Mặc dù độ lệch chuẩn là một công cụ mạnh mẽ, nhưng nó thường bị sử dụng sai mục đích. Việc áp dụng sai công thức hoặc hiểu sai giá trị mà nó đại diện có thể dẫn đến phân tích dữ liệu sai lệch và kết luận không chính xác.
- Sử dụng công thức quần thể cho mẫu: Quên sử dụng n - 1 cho mẫu sẽ làm giảm nhân tạo mức độ phân tán được tính toán, dẫn đến đánh giá thấp phương sai quần thể thực tế.
- Áp dụng ĐLC cho các phân phối không chuẩn: Quy tắc Thực nghiệm chỉ áp dụng cho phân phối chuẩn. Đối với dữ liệu lệch nặng, ĐLC có thể không phản ánh chính xác mức độ phân tán.
- Nhầm lẫn ĐLC với Sai số chuẩn: Sai số chuẩn (Standard Error) đo lường độ chính xác của ước lượng giá trị trung bình mẫu, trong khi độ lệch chuẩn đo lường mức độ phân tán của chính dữ liệu nền tảng.
Cẩn thận với Giá trị ngoại lai
Further Reading
Sources
References and further authoritative reading used in preparing this article.