Σ
SDCalc
Cơ bảnFundamentals·9 min

Độ lệch chuẩn là gì? Định nghĩa, Công thức tính & Ví dụ chi tiết

Tìm hiểu độ lệch chuẩn là gì, cách tính cho mẫu và quần thể, và tại sao nó quan trọng trong phân tích dữ liệu. Nắm vững công thức ngay hôm nay.

By Standard Deviation Calculator Team · Data Science Team·Published

Độ lệch chuẩn là gì?

Độ lệch chuẩn là một thước đo thống kê dùng để lượng hóa mức độ biến thiên hoặc độ phân tán trong một tập hợp các giá trị dữ liệu. Độ lệch chuẩn thấp cho thấy các điểm dữ liệu có xu hướng nằm gần giá trị trung bình (kỳ vọng) của tập hợp, trong khi độ lệch chuẩn cao cho thấy các điểm dữ liệu trải dài ra một phạm vi giá trị rộng hơn. Được ký hiệu bằng chữ cái Hy Lạp σ (sigma) cho quần thể và s cho mẫu, đây là một trong những khái niệm cơ bản nhất trong thống kê mô tả.

Định nghĩa cốt lõi

Độ lệch chuẩn đo lường khoảng cách điển hình của mỗi điểm dữ liệu so với giá trị trung bình. Nó cho bạn biết, trung bình thì dữ liệu của bạn lệch khỏi tâm bao nhiêu.

Độ lệch chuẩn của Quần thể và Mẫu

Trước khi tính độ lệch chuẩn, bạn phải xác định dữ liệu của mình đại diện cho toàn bộ quần thể hay chỉ là một mẫu của quần thể đó. Quần thể bao gồm tất cả các thành viên của một nhóm được chỉ định, trong khi mẫu là một tập con đại diện của nhóm đó. Việc tính độ lệch chuẩn cho mẫu cần một điều chỉnh toán học—sử dụng n - 1 (bậc tự do, hay df) thay vì N—để đảm bảo kết quả là một ước lượng không thiên lệch của phương sai quần thể.

Độ lệch chuẩn của Quần thể

Được sử dụng khi bạn có dữ liệu của toàn bộ nhóm. Ký hiệu là σ. Mẫu số trong công thức phương sai là N (tổng kích thước quần thể).

Độ lệch chuẩn của Mẫu

Được sử dụng khi bạn chỉ có một tập con của nhóm. Ký hiệu là s. Mẫu số trong công thức phương sai là n - 1 (kích thước mẫu trừ đi một) để khắc phục thiên lệch.

Giải thích Công thức Độ lệch chuẩn

Các công thức tính độ lệch chuẩn dựa trên việc tính phương sai trước, sau đó lấy căn bậc hai. Bước lấy căn bậc hai này rất quan trọng vì nó trả thước đo độ phân tán về lại đơn vị gốc của dữ liệu. Các thành phần chính bao gồm xᵢ (mỗi giá trị riêng lẻ), μ hoặc (giá trị trung bình của quần thể hoặc mẫu), và N hoặc n (tổng số giá trị).

Độ lệch chuẩn Quần thể

σ = √[ Σ(xᵢ - μ)² / N ]

Độ lệch chuẩn Mẫu

s = √[ Σ(xᵢ - x̄)² / (n - 1) ]

Ví dụ Tính toán Từng bước

Hãy cùng tính độ lệch chuẩn mẫu cho một tập dữ liệu nhỏ về điểm kiểm tra: [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]. Việc làm theo công thức từng bước sẽ cho thấy phương sai tích lũy như thế nào trước khi chúng ta lấy căn bậc hai cuối cùng.

1

Tính Giá trị trung bình (x̄)

Tổng tất cả các giá trị và chia cho số lượng: (4+8+6+5+3+2+8+9+2+5) / 10 = 52 / 10 = 5.2
2

Trừ đi Giá trị trung bình và Bình phương Kết quả

Với mỗi giá trị, tìm hiệu bình phương: (4-5.2)² = 1.44, (8-5.2)² = 7.84, (6-5.2)² = 0.64, v.v.
3

Tổng các Hiệu bình phương

Cộng tất cả các kết quả bình phương lại: 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04 = 57.6
4

Chia cho n - 1 (Bậc tự do)

Chia tổng cho kích thước mẫu trừ đi một: 57.6 / (10 - 1) = 57.6 / 9 = 6.4. Đây chính là phương sai mẫu (σ²).
5

Lấy Căn bậc hai

Tìm căn bậc hai của phương sai: √6.4 ≈ 2.53. Độ lệch chuẩn mẫu là 2.53.

Tính Độ lệch chuẩn trong Python

Tính toán độ lệch chuẩn thủ công rất dễ xảy ra sai sót, đặc biệt với các tập dữ liệu lớn. Trong thực tế, các nhà thống kê và khoa học dữ liệu sử dụng các ngôn ngữ lập trình như Python để tính toán ngay lập tức bằng các thư viện có sẵn.

python
import statistics

data = [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]

# Tính độ lệch chuẩn mẫu (mặc định)
sample_sd = statistics.stdev(data)
print(f"Sample SD: {sample_sd:.2f}")

# Tính độ lệch chuẩn quần thể
pop_sd = statistics.pstdev(data)
print(f"Population SD: {pop_sd:.2f}")

Quy tắc Thực nghiệm và Độ lệch chuẩn

Khi dữ liệu tuân theo phân phối chuẩn (đường cong hình chuông), độ lệch chuẩn trở nên có tính dự đoán cực kỳ cao. Quy tắc Thực nghiệm, còn được gọi là quy tắc 68-95-99.7, phát biểu rằng gần như toàn bộ dữ liệu sẽ nằm trong ba độ lệch chuẩn so với giá trị trung bình. Điều này giúp các nhà phân tích nhanh chóng xác định các giá trị ngoại lai và hiểu được xác suất xảy ra của một quan sát cụ thể.

Khoảng cách từ Giá trị trung bìnhTỷ lệ Dữ liệuỨng dụng
±1σ68.27%Xác định các giá trị điển hình, thường ngày
±2σ95.45%Thiết lập khoảng tin cậy
±3σ99.73%Phát hiện các giá trị ngoại lai cực đoan

Độ lệch chuẩn so với Phương sai

Phương sai và độ lệch chuẩn là các thước đo độ phân tán có mối liên hệ chặt chẽ với nhau. Phương sai (σ² hoặc s²) là trung bình của các bình phương khoảng cách so với Giá trị trung bình, trong khi độ lệch chuẩn là căn bậc hai của phương sai. Vì phương sai được biểu diễn dưới dạng đơn vị bình phương (ví dụ: đồngVN bình phương, cm vuông), nên nó có thể khó diễn giải trong bối cảnh của dữ liệu gốc. Độ lệch chuẩn giải quyết vấn đề này bằng cách chuyển đổi thước đo trở về đơn vị gốc.

Báo cáo Dữ liệu của bạn

Hãy luôn báo cáo độ lệch chuẩn cùng với giá trị trung bình khi mô tả dữ liệu của bạn. Vì ĐLC có cùng đơn vị với giá trị trung bình (ví dụ: đồngVN, cm, kg), nó cung cấp một thước đo độ phân tán trực quan mà người đọc có thể hiểu ngay lập tức.

Những sai lầm thường gặp cần tránh

Mặc dù độ lệch chuẩn là một công cụ mạnh mẽ, nhưng nó thường bị sử dụng sai mục đích. Việc áp dụng sai công thức hoặc hiểu sai giá trị mà nó đại diện có thể dẫn đến phân tích dữ liệu sai lệch và kết luận không chính xác.

  • Sử dụng công thức quần thể cho mẫu: Quên sử dụng n - 1 cho mẫu sẽ làm giảm nhân tạo mức độ phân tán được tính toán, dẫn đến đánh giá thấp phương sai quần thể thực tế.
  • Áp dụng ĐLC cho các phân phối không chuẩn: Quy tắc Thực nghiệm chỉ áp dụng cho phân phối chuẩn. Đối với dữ liệu lệch nặng, ĐLC có thể không phản ánh chính xác mức độ phân tán.
  • Nhầm lẫn ĐLC với Sai số chuẩn: Sai số chuẩn (Standard Error) đo lường độ chính xác của ước lượng giá trị trung bình mẫu, trong khi độ lệch chuẩn đo lường mức độ phân tán của chính dữ liệu nền tảng.

Cẩn thận với Giá trị ngoại lai

Độ lệch chuẩn rất nhạy cảm với các giá trị ngoại lai cực đoan. Vì công thức bình phương khoảng cách so với giá trị trung bình, chỉ một giá trị ngoại lai khổng lồ cũng có thể làm tăng độ lệch chuẩn một cách mất cân đối, khiến dữ liệu có vẻ biến thiên nhiều hơn mức thực tế.

Further Reading

Sources

References and further authoritative reading used in preparing this article.

  1. Wikipedia: Độ lệch chuẩn
  2. Sổ tay điện tử các Phương pháp Thống kê NIST/SEMATECH
  3. Khan Academy: Thống kê và Xác suất