方差是数据集中的各个数据与其均值之间差值的平方的平均值。方差的计算公式如下:
对于总体数据(即所有数据):
σ
2
=
1
N
∑
i
=
1
N
(
x
i
−
μ
)
2
\sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2
σ2=N1i=1∑N(xi−μ)2
其中:
σ
2
是总体方差。
\sigma^2是总体方差。
σ2是总体方差。
N
是数据的总个数。
N是数据的总个数。
N是数据的总个数。
x
i
是第
i
个数据点。
x_i 是第 i 个数据点。
xi是第i个数据点。
μ
是数据的均值,即
\mu 是数据的均值,即
μ是数据的均值,即
μ
=
1
N
∑
i
=
1
N
x
i
\mu = \frac{1}{N} \sum_{i=1}^N x_i
μ=N1i=1∑Nxi
对于样本数据(即从总体中抽取的部分数据):
s
2
=
1
n
−
1
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2
s2=n−11i=1∑n(xi−xˉ)2
其中:
s
2
是样本方差。
s^2 是样本方差。
s2是样本方差。
n
是样本数据的个数。
n 是样本数据的个数。
n是样本数据的个数。
x
i
是第
i
个样本数据点。
x_i 是第 i 个样本数据点。
xi是第i个样本数据点。
x
ˉ
是样本数据的均值,
\bar{x} 是样本数据的均值,
xˉ是样本数据的均值, 即
x
ˉ
=
1
n
∑
i
=
1
n
x
i
\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i
xˉ=n1i=1∑nxi
总结起来,方差的公式可以概括为:
总体方差:
σ
2
=
1
N
∑
i
=
1
N
(
x
i
−
μ
)
2
\sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2
σ2=N1i=1∑N(xi−μ)2
样本方差:
s
2
=
1
n
−
1
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2
s2=n−11i=1∑n(xi−xˉ)2
注意:样本方差的分母用 ( n-1 ) 而不是 ( n ),这是因为在计算样本均值时已经用掉了一个自由度(即数据点中有一个点是确定的)。使用 ( n-1 ) 可以调整这个偏差,使得样本方差更准确地反映总体方差。这种调整称为“无偏估计”,它确保在大量重复抽样的情况下,样本方差的平均值与总体方差相等。简单来说, ( n-1 ) 让我们的估计更加准确、公正。