统计术语表

关键统计术语和定义

general

标准差 (σ / s)

衡量一组值中变异或离散程度的指标。它是方差的平方根，以与数据相同的单位表示。

方差 (σ² / s²)

偏离均值的平方差的平均值。方差量化数据集中的离散程度，是标准差的平方。

均值 (μ / x̄)

一组值的算术平均值，通过将所有值相加并除以数量来计算。它代表数据的集中趋势。

中位数

排序数据集中的中间值。如果值的数量为偶数，中位数是两个中间值的平均值。它不受异常值影响。

众数

数据集中出现频率最高的值。数据集可以有一个众数（单峰）、多个众数（多峰）或没有众数。

极差

数据集中最大值和最小值之间的差。虽然计算简单，但它只考虑两个极端值，且对异常值敏感。

总体

研究中感兴趣的所有个体或观测值的完整集合。总体参数通常用希腊字母 (μ, σ) 表示。

样本

从总体中选取用于分析的子集。样本统计量通常用拉丁字母 (x̄, s) 表示，用于估计总体参数。

贝塞尔校正

在计算样本方差时，分母使用 n−1 而不是 n。这种校正提供了从样本对总体方差的无偏估计。

正态分布

一种对称的钟形概率分布，其中均值、中位数和众数都相等。许多自然现象近似服从正态分布。

经验法则 (68-95-99.7)

对于正态分布的数据，大约 68% 的值落在 ±1σ 内，95% 落在 ±2σ 内，99.7% 落在 ±3σ 内。

Z 分数

数据点距离均值的标准差个数，计算公式为 Z = (X − μ) / σ。Z 分数允许比较来自不同分布的值。

标准误差 (SE)

统计量抽样分布的标准差，最常见的是均值的标准误差。SE = σ/√n，随样本量增大而减小。

置信区间

在指定的置信水平（如 95%）下可能包含真实总体参数的值的范围。更宽的区间表示更低的精确度。

异常值

与其他观测值有显著差异的数据点。常见的检测方法包括超出均值 ±2 或 ±3 个标准差的值。

变异系数 (CV)

标准差与均值的比率，以百分比表示 (CV = σ/μ × 100%)。它允许比较不同量度的数据集之间的变异性。

偏度

概率分布不对称性的度量。正偏度表示尾部向右延伸；负偏度表示尾部向左延伸。

峰度

概率分布尾部特征的度量。高峰度表示重尾和尖锐的峰值；低峰度表示轻尾和平坦的峰值。

自由度 (df)

在统计计算中可以自由变化的独立值的数量。对于样本标准差，df = n − 1，反映了贝塞尔校正。

中心极限定理

指出无论总体分布如何，样本均值的抽样分布随着样本量的增加而趋近于正态分布。

假设检验

基于数据做出决策的统计方法。它涉及将检验统计量与临界值或 p 值进行比较，以确定是否拒绝零假设。

P 值

假设零假设为真，观察到与检验统计量一样极端的结果的概率。较小的 p 值提供了反对零假设的更强证据。

四分位距 (IQR)

第 75 百分位数 (Q3) 与第 25 百分位数 (Q1) 之间的差。IQR 衡量中间 50% 数据的离散程度，不受异常值影响。

百分位数

给定百分比的观测值落在其下的值。例如，第 90 百分位数是 90% 的数据点在其下方的值。