Σ
SDCalc
Cơ bảnFundamentals·9 min

Độ lệch chuẩn là gì? Định nghĩa, Công thức tính & Ví dụ chi tiết

Tìm hiểu độ lệch chuẩn là gì, cách tính cho mẫu và quần thể, và tại sao nó quan trọng trong phân tích dữ liệu. Nắm vững công thức ngay hôm nay.

By Standard Deviation Calculator Team · Data Science Team·Published

Độ lệch chuẩn là gì?

Độ lệch chuẩn là một thước đo thống kê dùng để lượng hóa mức độ biến thiên hoặc độ phân tán trong một tập hợp các giá trị dữ liệu. Độ lệch chuẩn thấp cho thấy các điểm dữ liệu có xu hướng nằm gần giá trị trung bình (kỳ vọng) của tập hợp, trong khi độ lệch chuẩn cao cho thấy các điểm dữ liệu trải dài ra một phạm vi giá trị rộng hơn. Được ký hiệu bằng chữ cái Hy Lạp σ (sigma) cho quần thể và s cho mẫu, đây là một trong những khái niệm cơ bản nhất trong thống kê mô tả.

Định nghĩa cốt lõi

Độ lệch chuẩn đo lường khoảng cách điển hình của mỗi điểm dữ liệu so với giá trị trung bình. Nó cho bạn biết, trung bình thì dữ liệu của bạn lệch khỏi tâm bao nhiêu.

Độ lệch chuẩn của Quần thể và Mẫu

Trước khi tính độ lệch chuẩn, bạn phải xác định dữ liệu của mình đại diện cho toàn bộ quần thể hay chỉ là một mẫu của quần thể đó. Quần thể bao gồm tất cả các thành viên của một nhóm được chỉ định, trong khi mẫu là một tập con đại diện của nhóm đó. Việc tính độ lệch chuẩn cho mẫu cần một điều chỉnh toán học—sử dụng n - 1 (bậc tự do, hay df) thay vì N—để đảm bảo kết quả là một ước lượng không thiên lệch của phương sai quần thể.

Độ lệch chuẩn của Quần thể

Được sử dụng khi bạn có dữ liệu của toàn bộ nhóm. Ký hiệu là σ. Mẫu số trong công thức phương sai là N (tổng kích thước quần thể).

Độ lệch chuẩn của Mẫu

Được sử dụng khi bạn chỉ có một tập con của nhóm. Ký hiệu là s. Mẫu số trong công thức phương sai là n - 1 (kích thước mẫu trừ đi một) để khắc phục thiên lệch.

Giải thích Công thức Độ lệch chuẩn

Các công thức tính độ lệch chuẩn dựa trên việc tính phương sai trước, sau đó lấy căn bậc hai. Bước lấy căn bậc hai này rất quan trọng vì nó trả thước đo độ phân tán về lại đơn vị gốc của dữ liệu. Các thành phần chính bao gồm xᵢ (mỗi giá trị riêng lẻ), μ hoặc (giá trị trung bình của quần thể hoặc mẫu), và N hoặc n (tổng số giá trị).

Độ lệch chuẩn Quần thể

σ = √[ Σ(xᵢ - μ)² / N ]

Độ lệch chuẩn Mẫu

s = √[ Σ(xᵢ - x̄)² / (n - 1) ]

Ví dụ Tính toán Từng bước

Hãy cùng tính độ lệch chuẩn mẫu cho một tập dữ liệu nhỏ về điểm kiểm tra: [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]. Việc làm theo công thức từng bước sẽ cho thấy phương sai tích lũy như thế nào trước khi chúng ta lấy căn bậc hai cuối cùng.

1

Tính Giá trị trung bình (x̄)

Tổng tất cả các giá trị và chia cho số lượng: (4+8+6+5+3+2+8+9+2+5) / 10 = 52 / 10 = 5.2
2

Trừ đi Giá trị trung bình và Bình phương Kết quả

Với mỗi giá trị, tìm hiệu bình phương: (4-5.2)² = 1.44, (8-5.2)² = 7.84, (6-5.2)² = 0.64, v.v.
3

Tổng các Hiệu bình phương

Cộng tất cả các kết quả bình phương lại: 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04 = 57.6
4

Chia cho n - 1 (Bậc tự do)

Chia tổng cho kích thước mẫu trừ đi một: 57.6 / (10 - 1) = 57.6 / 9 = 6.4. Đây chính là phương sai mẫu (σ²).
5

Lấy Căn bậc hai

Tìm căn bậc hai của phương sai: √6.4 ≈ 2.53. Độ lệch chuẩn mẫu là 2.53.

Tính Độ lệch chuẩn trong Python

Tính toán độ lệch chuẩn thủ công rất dễ xảy ra sai sót, đặc biệt với các tập dữ liệu lớn. Trong thực tế, các nhà thống kê và khoa học dữ liệu sử dụng các ngôn ngữ lập trình như Python để tính toán ngay lập tức bằng các thư viện có sẵn.

python
import statistics

data = [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]

# Tính độ lệch chuẩn mẫu (mặc định)
sample_sd = statistics.stdev(data)
print(f"Sample SD: {sample_sd:.2f}")

# Tính độ lệch chuẩn quần thể
pop_sd = statistics.pstdev(data)
print(f"Population SD: {pop_sd:.2f}")

Quy tắc Thực nghiệm và Độ lệch chuẩn

Khi dữ liệu tuân theo phân phối chuẩn (đường cong hình chuông), độ lệch chuẩn trở nên có tính dự đoán cực kỳ cao. Quy tắc Thực nghiệm, còn được gọi là quy tắc 68-95-99.7, phát biểu rằng gần như toàn bộ dữ liệu sẽ nằm trong ba độ lệch chuẩn so với giá trị trung bình. Điều này giúp các nhà phân tích nhanh chóng xác định các giá trị ngoại lai và hiểu được xác suất xảy ra của một quan sát cụ thể.

Khoảng cách từ Giá trị trung bìnhTỷ lệ Dữ liệuỨng dụng
±1σ68.27%Xác định các giá trị điển hình, thường ngày
±2σ95.45%Thiết lập khoảng tin cậy
±3σ99.73%Phát hiện các giá trị ngoại lai cực đoan

Độ lệch chuẩn so với Phương sai

Phương sai và độ lệch chuẩn là các thước đo độ phân tán có mối liên hệ chặt chẽ với nhau. Phương sai (σ² hoặc s²) là trung bình của các bình phương khoảng cách so với Giá trị trung bình, trong khi độ lệch chuẩn là căn bậc hai của phương sai. Vì phương sai được biểu diễn dưới dạng đơn vị bình phương (ví dụ: đồngVN bình phương, cm vuông), nên nó có thể khó diễn giải trong bối cảnh của dữ liệu gốc. Độ lệch chuẩn giải quyết vấn đề này bằng cách chuyển đổi thước đo trở về đơn vị gốc.

Báo cáo Dữ liệu của bạn

Hãy luôn báo cáo độ lệch chuẩn cùng với giá trị trung bình khi mô tả dữ liệu của bạn. Vì ĐLC có cùng đơn vị với giá trị trung bình (ví dụ: đồngVN, cm, kg), nó cung cấp một thước đo độ phân tán trực quan mà người đọc có thể hiểu ngay lập tức.

Những sai lầm thường gặp cần tránh

Mặc dù độ lệch chuẩn là một công cụ mạnh mẽ, nhưng nó thường bị sử dụng sai mục đích. Việc áp dụng sai công thức hoặc hiểu sai giá trị mà nó đại diện có thể dẫn đến phân tích dữ liệu sai lệch và kết luận không chính xác.

  • Sử dụng công thức quần thể cho mẫu: Quên sử dụng n - 1 cho mẫu sẽ làm giảm nhân tạo mức độ phân tán được tính toán, dẫn đến đánh giá thấp phương sai quần thể thực tế.
  • Áp dụng ĐLC cho các phân phối không chuẩn: Quy tắc Thực nghiệm chỉ áp dụng cho phân phối chuẩn. Đối với dữ liệu lệch nặng, ĐLC có thể không phản ánh chính xác mức độ phân tán.
  • Nhầm lẫn ĐLC với Sai số chuẩn: Sai số chuẩn (Standard Error) đo lường độ chính xác của ước lượng giá trị trung bình mẫu, trong khi độ lệch chuẩn đo lường mức độ phân tán của chính dữ liệu nền tảng.

Cẩn thận với Giá trị ngoại lai

Độ lệch chuẩn rất nhạy cảm với các giá trị ngoại lai cực đoan. Vì công thức bình phương khoảng cách so với giá trị trung bình, chỉ một giá trị ngoại lai khổng lồ cũng có thể làm tăng độ lệch chuẩn một cách mất cân đối, khiến dữ liệu có vẻ biến thiên nhiều hơn mức thực tế.

Further Reading

Sources

References and further authoritative reading used in preparing this article.

  1. Wikipedia: Độ lệch chuẩn
  2. Sổ tay điện tử các Phương pháp Thống kê NIST/SEMATECH
  3. Khan Academy: Thống kê và Xác suất

How to Read This Article

A statistics tutorial is a practical interpretation guide, not just a formula dump. It refers to the assumptions, notation, and reporting language that analysts need when they explain a result to a teacher, manager, client, or reviewer. The article body covers the specific topic, while the sections below create a common interpretation frame that readers can reuse across related metrics.

Reading goalWhat to focus onCommon mistake
DefinitionWhat the metric is and what quantity it summarizesTreating the formula as self-explanatory
Formula choiceSample versus population assumptions and notationUsing n when n-1 is required or vice versa
InterpretationWhether the result indicates concentration, spread, or riskCalling a large value good or bad without context

Frequently Asked Questions

How should I interpret a high standard deviation?

A high standard deviation means the observations are spread farther from the mean on average. Whether that spread is acceptable depends on the context: wide dispersion might signal risk in finance, instability in manufacturing, or genuine natural variation in scientific data.

Why do some articles mention n while others mention n-1?

The denominator reflects the difference between population and sample formulas. Population variance and population standard deviation use N because the full dataset is known. Sample variance and sample standard deviation often use n-1 because Bessel’s correction reduces bias when estimating population spread from a sample.

What is a statistical interpretation guide?

A statistical interpretation guide is a page that moves beyond arithmetic and explains meaning. It tells you what a metric is, when the formula applies, and how to describe the result in plain English without overstating certainty.

Can I cite this article in a report?

You should cite the underlying authoritative reference for formal work whenever possible. This page is best used as an explanatory bridge that helps you understand the concept before quoting the original standard or handbook.

Why include direct citations on every article page?

Direct citations give readers a route to verify the definition, notation, and assumptions. That improves trust and reduces the chance that a simplified explanation is mistaken for the entire technical standard.

Authoritative References

These sources define the concepts referenced most often across our articles. Bessel's correction is a sample adjustment, variance is a squared measure of spread, and standard deviation is the square root of variance expressed in the same units as the data.