How should I interpret a high standard deviation?

A high standard deviation means the observations are spread farther from the mean on average. Whether that spread is acceptable depends on the context: wide dispersion might signal risk in finance, instability in manufacturing, or genuine natural variation in scientific data.

Why do some articles mention n while others mention n-1?

The denominator reflects the difference between population and sample formulas. Population variance and population standard deviation use N because the full dataset is known. Sample variance and sample standard deviation often use n-1 because Bessel’s correction reduces bias when estimating population spread from a sample.

What is a statistical interpretation guide?

A statistical interpretation guide is a page that moves beyond arithmetic and explains meaning. It tells you what a metric is, when the formula applies, and how to describe the result in plain English without overstating certainty.

Can I cite this article in a report?

You should cite the underlying authoritative reference for formal work whenever possible. This page is best used as an explanatory bridge that helps you understand the concept before quoting the original standard or handbook.

Why include direct citations on every article page?

Direct citations give readers a route to verify the definition, notation, and assumptions. That improves trust and reduces the chance that a simplified explanation is mistaken for the entire technical standard.

Độ lệch chuẩn là gì? Định nghĩa, Công thức tính & Ví dụ chi tiết

Độ lệch chuẩn là gì?

Độ lệch chuẩn là một thước đo thống kê dùng để lượng hóa mức độ biến thiên hoặc độ phân tán trong một tập hợp các giá trị dữ liệu. Độ lệch chuẩn thấp cho thấy các điểm dữ liệu có xu hướng nằm gần giá trị trung bình (kỳ vọng) của tập hợp, trong khi độ lệch chuẩn cao cho thấy các điểm dữ liệu trải dài ra một phạm vi giá trị rộng hơn. Được ký hiệu bằng chữ cái Hy Lạp σ (sigma) cho quần thể và s cho mẫu, đây là một trong những khái niệm cơ bản nhất trong thống kê mô tả.

Định nghĩa cốt lõi

Độ lệch chuẩn đo lường khoảng cách điển hình của mỗi điểm dữ liệu so với giá trị trung bình. Nó cho bạn biết, trung bình thì dữ liệu của bạn lệch khỏi tâm bao nhiêu.

Độ lệch chuẩn của Quần thể và Mẫu

Trước khi tính độ lệch chuẩn, bạn phải xác định dữ liệu của mình đại diện cho toàn bộ quần thể hay chỉ là một mẫu của quần thể đó. Quần thể bao gồm tất cả các thành viên của một nhóm được chỉ định, trong khi mẫu là một tập con đại diện của nhóm đó. Việc tính độ lệch chuẩn cho mẫu cần một điều chỉnh toán học—sử dụng n - 1 (bậc tự do, hay df) thay vì N—để đảm bảo kết quả là một ước lượng không thiên lệch của phương sai quần thể.

Độ lệch chuẩn của Quần thể

Được sử dụng khi bạn có dữ liệu của toàn bộ nhóm. Ký hiệu là σ. Mẫu số trong công thức phương sai là N (tổng kích thước quần thể).

Độ lệch chuẩn của Mẫu

Được sử dụng khi bạn chỉ có một tập con của nhóm. Ký hiệu là s. Mẫu số trong công thức phương sai là n - 1 (kích thước mẫu trừ đi một) để khắc phục thiên lệch.

Giải thích Công thức Độ lệch chuẩn

Các công thức tính độ lệch chuẩn dựa trên việc tính phương sai trước, sau đó lấy căn bậc hai. Bước lấy căn bậc hai này rất quan trọng vì nó trả thước đo độ phân tán về lại đơn vị gốc của dữ liệu. Các thành phần chính bao gồm xᵢ (mỗi giá trị riêng lẻ), μ hoặc x̄ (giá trị trung bình của quần thể hoặc mẫu), và N hoặc n (tổng số giá trị).

Độ lệch chuẩn Quần thể

σ = √[ Σ(xᵢ - μ)² / N ]

Độ lệch chuẩn Mẫu

s = √[ Σ(xᵢ - x̄)² / (n - 1) ]

Ví dụ Tính toán Từng bước

Hãy cùng tính độ lệch chuẩn mẫu cho một tập dữ liệu nhỏ về điểm kiểm tra: [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]. Việc làm theo công thức từng bước sẽ cho thấy phương sai tích lũy như thế nào trước khi chúng ta lấy căn bậc hai cuối cùng.

Tính Giá trị trung bình (x̄)

Tổng tất cả các giá trị và chia cho số lượng: (4+8+6+5+3+2+8+9+2+5) / 10 = 52 / 10 = 5.2

Trừ đi Giá trị trung bình và Bình phương Kết quả

Với mỗi giá trị, tìm hiệu bình phương: (4-5.2)² = 1.44, (8-5.2)² = 7.84, (6-5.2)² = 0.64, v.v.

Tổng các Hiệu bình phương

Cộng tất cả các kết quả bình phương lại: 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04 = 57.6

Chia cho n - 1 (Bậc tự do)

Chia tổng cho kích thước mẫu trừ đi một: 57.6 / (10 - 1) = 57.6 / 9 = 6.4. Đây chính là phương sai mẫu (σ²).

Lấy Căn bậc hai

Tìm căn bậc hai của phương sai: √6.4 ≈ 2.53. Độ lệch chuẩn mẫu là 2.53.

Tính Độ lệch chuẩn trong Python

Tính toán độ lệch chuẩn thủ công rất dễ xảy ra sai sót, đặc biệt với các tập dữ liệu lớn. Trong thực tế, các nhà thống kê và khoa học dữ liệu sử dụng các ngôn ngữ lập trình như Python để tính toán ngay lập tức bằng các thư viện có sẵn.

python

import statistics

data = [4, 8, 6, 5, 3, 2, 8, 9, 2, 5]

# Tính độ lệch chuẩn mẫu (mặc định)
sample_sd = statistics.stdev(data)
print(f"Sample SD: {sample_sd:.2f}")

# Tính độ lệch chuẩn quần thể
pop_sd = statistics.pstdev(data)
print(f"Population SD: {pop_sd:.2f}")

Quy tắc Thực nghiệm và Độ lệch chuẩn

Khi dữ liệu tuân theo phân phối chuẩn (đường cong hình chuông), độ lệch chuẩn trở nên có tính dự đoán cực kỳ cao. Quy tắc Thực nghiệm, còn được gọi là quy tắc 68-95-99.7, phát biểu rằng gần như toàn bộ dữ liệu sẽ nằm trong ba độ lệch chuẩn so với giá trị trung bình. Điều này giúp các nhà phân tích nhanh chóng xác định các giá trị ngoại lai và hiểu được xác suất xảy ra của một quan sát cụ thể.

Khoảng cách từ Giá trị trung bình	Tỷ lệ Dữ liệu	Ứng dụng
±1σ	68.27%	Xác định các giá trị điển hình, thường ngày
±2σ	95.45%	Thiết lập khoảng tin cậy
±3σ	99.73%	Phát hiện các giá trị ngoại lai cực đoan

Độ lệch chuẩn so với Phương sai

Phương sai và độ lệch chuẩn là các thước đo độ phân tán có mối liên hệ chặt chẽ với nhau. Phương sai (σ² hoặc s²) là trung bình của các bình phương khoảng cách so với Giá trị trung bình, trong khi độ lệch chuẩn là căn bậc hai của phương sai. Vì phương sai được biểu diễn dưới dạng đơn vị bình phương (ví dụ: đồngVN bình phương, cm vuông), nên nó có thể khó diễn giải trong bối cảnh của dữ liệu gốc. Độ lệch chuẩn giải quyết vấn đề này bằng cách chuyển đổi thước đo trở về đơn vị gốc.

Báo cáo Dữ liệu của bạn

Hãy luôn báo cáo độ lệch chuẩn cùng với giá trị trung bình khi mô tả dữ liệu của bạn. Vì ĐLC có cùng đơn vị với giá trị trung bình (ví dụ: đồngVN, cm, kg), nó cung cấp một thước đo độ phân tán trực quan mà người đọc có thể hiểu ngay lập tức.

Những sai lầm thường gặp cần tránh

Mặc dù độ lệch chuẩn là một công cụ mạnh mẽ, nhưng nó thường bị sử dụng sai mục đích. Việc áp dụng sai công thức hoặc hiểu sai giá trị mà nó đại diện có thể dẫn đến phân tích dữ liệu sai lệch và kết luận không chính xác.

Sử dụng công thức quần thể cho mẫu: Quên sử dụng n - 1 cho mẫu sẽ làm giảm nhân tạo mức độ phân tán được tính toán, dẫn đến đánh giá thấp phương sai quần thể thực tế.
Áp dụng ĐLC cho các phân phối không chuẩn: Quy tắc Thực nghiệm chỉ áp dụng cho phân phối chuẩn. Đối với dữ liệu lệch nặng, ĐLC có thể không phản ánh chính xác mức độ phân tán.
Nhầm lẫn ĐLC với Sai số chuẩn: Sai số chuẩn (Standard Error) đo lường độ chính xác của ước lượng giá trị trung bình mẫu, trong khi độ lệch chuẩn đo lường mức độ phân tán của chính dữ liệu nền tảng.

Cẩn thận với Giá trị ngoại lai

Độ lệch chuẩn rất nhạy cảm với các giá trị ngoại lai cực đoan. Vì công thức bình phương khoảng cách so với giá trị trung bình, chỉ một giá trị ngoại lai khổng lồ cũng có thể làm tăng độ lệch chuẩn một cách mất cân đối, khiến dữ liệu có vẻ biến thiên nhiều hơn mức thực tế.

Sources

References and further authoritative reading used in preparing this article.

← Trung tâm Học tập

Reading goal	What to focus on	Common mistake
Definition	What the metric is and what quantity it summarizes	Treating the formula as self-explanatory
Formula choice	Sample versus population assumptions and notation	Using n when n-1 is required or vice versa
Interpretation	Whether the result indicates concentration, spread, or risk	Calling a large value good or bad without context