Bảng thuật ngữ Thống kê

Các thuật ngữ và định nghĩa thống kê quan trọng

general

Độ lệch chuẩn (σ / s)

Thước đo mức độ biến thiên hoặc phân tán trong một tập hợp giá trị. Đó là căn bậc hai của phương sai và được biểu thị cùng đơn vị với dữ liệu.

Phương sai (σ² / s²)

Trung bình của bình phương các độ lệch so với giá trị trung bình. Phương sai đo lường mức độ phân tán trong tập dữ liệu và là bình phương của độ lệch chuẩn.

Giá trị trung bình (μ / x̄)

Trung bình cộng của một tập hợp giá trị, được tính bằng cách cộng tất cả giá trị rồi chia cho số lượng. Nó đại diện cho xu hướng trung tâm của dữ liệu.

Trung vị

Giá trị ở giữa trong tập dữ liệu đã sắp xếp. Nếu có số lượng giá trị chẵn, trung vị là trung bình của hai giá trị ở giữa. Nó kháng với giá trị ngoại lai.

Yếu vị

Giá trị xuất hiện thường xuyên nhất trong tập dữ liệu. Tập dữ liệu có thể có một yếu vị (đơn đỉnh), nhiều yếu vị (đa đỉnh) hoặc không có yếu vị.

Phạm vi

Hiệu giữa giá trị lớn nhất và nhỏ nhất trong tập dữ liệu. Mặc dù dễ tính nhưng chỉ xem xét hai giá trị cực đoan và nhạy với giá trị ngoại lai.

Tổng thể

Tập hợp đầy đủ của tất cả các cá thể hoặc quan sát được quan tâm trong nghiên cứu. Các tham số tổng thể thường được ký hiệu bằng chữ cái Hy Lạp (μ, σ).

Mẫu

Tập con của tổng thể được chọn để phân tích. Thống kê mẫu thường được ký hiệu bằng chữ cái Latin (x̄, s) và được sử dụng để ước lượng tham số tổng thể.

Hiệu chỉnh Bessel

Việc sử dụng n−1 thay vì n ở mẫu số khi tính phương sai mẫu. Hiệu chỉnh này cung cấp ước lượng không chệch của phương sai tổng thể từ mẫu.

Phân phối chuẩn

Phân phối xác suất đối xứng, hình chuông trong đó trung bình, trung vị và yếu vị đều bằng nhau. Nhiều hiện tượng tự nhiên tuân theo phân phối chuẩn gần đúng.

Quy tắc thực nghiệm (68-95-99,7)

Đối với dữ liệu phân phối chuẩn, khoảng 68% giá trị nằm trong ±1σ, 95% trong ±2σ và 99,7% trong ±3σ từ giá trị trung bình.

Điểm Z

Số độ lệch chuẩn mà một điểm dữ liệu cách xa trung bình, được tính là Z = (X − μ) / σ. Điểm Z cho phép so sánh các giá trị từ các phân phối khác nhau.

Sai số chuẩn (SE)

Độ lệch chuẩn của phân phối mẫu của một thống kê, thường là trung bình. SE = σ/√n, giảm khi kích thước mẫu tăng.

Khoảng tin cậy

Phạm vi giá trị có khả năng chứa tham số tổng thể thực với mức độ tin cậy xác định (ví dụ: 95%). Khoảng rộng hơn cho thấy độ chính xác thấp hơn.

Giá trị ngoại lai

Điểm dữ liệu khác biệt đáng kể so với các quan sát khác. Các phương pháp phát hiện phổ biến bao gồm giá trị ngoài ±2 hoặc ±3 độ lệch chuẩn từ trung bình.

Hệ số biến thiên (CV)

Tỷ lệ giữa độ lệch chuẩn và trung bình, biểu thị bằng phần trăm (CV = σ/μ × 100%). Cho phép so sánh sự biến thiên giữa các tập dữ liệu với thang đo khác nhau.

Độ lệch

Thước đo tính bất đối xứng của phân phối xác suất. Độ lệch dương nghĩa là đuôi kéo dài sang phải; độ lệch âm nghĩa là kéo dài sang trái.

Độ nhọn

Thước đo tính chất đuôi của phân phối xác suất. Độ nhọn cao cho thấy đuôi nặng và đỉnh nhọn; độ nhọn thấp cho thấy đuôi nhẹ và đỉnh phẳng.

Bậc tự do (df)

Số giá trị độc lập có thể thay đổi trong phép tính thống kê. Đối với độ lệch chuẩn mẫu, df = n − 1, phản ánh hiệu chỉnh Bessel.

Định lý giới hạn trung tâm

Phát biểu rằng phân phối mẫu của trung bình mẫu tiến đến phân phối chuẩn khi kích thước mẫu tăng, bất kể phân phối của tổng thể.

Kiểm định giả thuyết

Phương pháp thống kê để đưa ra quyết định dựa trên dữ liệu. Bao gồm so sánh thống kê kiểm định với giá trị tới hạn hoặc giá trị p để xác định có nên bác bỏ giả thuyết không hay không.

Giá trị P

Xác suất quan sát được kết quả cực đoan như thống kê kiểm định, giả sử giả thuyết không là đúng. Giá trị p nhỏ hơn cung cấp bằng chứng mạnh hơn chống lại giả thuyết không.

Hệ số tương quan (r)

Giá trị từ −1 đến 1 đo lường cường độ và hướng của mối quan hệ tuyến tính giữa hai biến. Giá trị gần ±1 cho thấy mối quan hệ tuyến tính mạnh.

Khoảng tứ phân vị (IQR)

Hiệu giữa phân vị thứ 75 (Q3) và phân vị thứ 25 (Q1). IQR đo mức phân tán của 50% dữ liệu ở giữa và kháng với giá trị ngoại lai.

Phân vị

Giá trị mà dưới đó một tỷ lệ phần trăm nhất định của các quan sát nằm dưới. Ví dụ, phân vị thứ 90 là giá trị mà 90% điểm dữ liệu nằm dưới.