标准差的致命性缺陷解剖


为什么标准差通常都大于平均差? 学者们将其归因于先平方后开方。还有不少学者认为这“无形”中增大的误差是总体差异度的合理组成部分,如桂文林、伍超标(2005)指出方差超过平均差平方的部分是离差的平方。杨宝明(2002)指出方差为平均差的平方与离差的方差之和。

(一)方差并不等于平均差的平方与离差的方差之和。

“方差为平均差的平方与离差的方差之和”之结论的错误性,我们可以从三个维度进行证明,即例举证明其错误性,运用算术平均数的数学性质来证明其错误性,通过考察其推导证明过程来揭示其误导所在。

1. 举一个实例数据足以证明其错误性。

例1,有一组变量数据如表1所示。

1

序号

标志值

离差

1

126

-2.3333

2

121

-7.3333

3

119

-9.3333

4

135

6.6667

5

141

12.6667

6

128

-0.3333

根据表3所列的数据,我们经过计算,得

方差:σ258.5556

平均差的平方:AD241.5309

离差的方差:σY258.5556

显然,方差σ2=平均差的平方AD2

因此,有

AD2Y2=41.5309+58.555658.5556

故有σ2AD2Y2

2. 从方差的数学性质证明其错误性。

众所周知,在算术平均数的数学性质系列中,有一条数学性质为“各变量值与算术平均数的离差之和等于零”,这一数学性质告诉我们,离差的算术平均数也等于零。如果承认这一数学性质正确无误,那么“方差为平均差的平方与离差的方差之和”之论调,无异于说“方差等于平均差的平方,亦即标准差等于平均差”,这样一来,又与其结论“标准差不等于平均差”相矛盾;否则,又与算术平均数所具有的这一数学性质明显相矛盾。

下面,我们运用算术平均数的数学性质“各变量值与算术平均数的离差之和等于零”来证明“方差为平均差的平方与离差的方差之和”之论点的错误性。

设标志变量数列为,其算术平均数为,方差为,则有

上述标志变量的离差所组成的数列为,设离差的算术平均数为,离差的方差为

根据算术平均数的数学性质“各变量值与算术平均数的离差之和等于零”,则有

因此,可以推导出

    

显然,标志变量的方差与标志变量的离差的方差等价,亦即

从而,可以得出

亦即

这就是说,方差不等于平均差的平方与离差的方差之和。

3. 从其推导过程的失误来证明其错误性。

杨宝明(2002)的“方差为平均差的平方与离差的方差之和”其数学表达式为:  

   (第一步)

                   (第二步)

变量各值平方的均值减去均值的平方等于变量的方差,于是有

 (第三步)

方差为平均差的平方与离差的方差之和。

上述推导证明过程中,存在着一系列失误。

首先是第一步到第二步的推导出现了常识性错误,很明显,第二步应该是

,  

而不是

其次是第二步到第三步的推导出现了常识性错误:错误之一,由于第二步公式是错误的,导致以其推导出来的第三步也是错误的。错误之二,其依据“变量各值平方的均值减去均值的平方等于变量的方差”中的减项讲的是“均值的平方”,而其推导出来的第三步公式中却是平均差的平方AD2,两者之间明显矛盾。显而易见,因为

所以则有

这就是说,方差并不等于平均差的平方与离差的方差之和,方差超过平均差平方的部分也不是离差的平方。

(二)标准差通常都大于平均差,并非先平方后开方之故,而在于其用以平均化的自由度阶数信息未能全涵盖。

众所周知,方差是各个变量与算术平均值之间的离差的平方的算术平均数,它所表明的是离差平方的平均水平。它在离差平方的算术平均化过程中,对自由度阶数N进行了全涵盖,亦即N个离差平方由N来计算平均水平。这一过程可以表达为:

被除数(分子)      

除数(分母)

从反映离差平方的平均水平维度考察,方差是非常正确,毫无疑义的。

但是,方差到标准差的演化则存在了很大的问题与误导,且看以下过程:

被除数(分子):从方差时的到了标准差时的

除数(分母):从方差时的N到了标准差时的

商:从方差时的到了标准差时的

这一推演过程从等式两边同时开平方角度讲,并没有错。然而,从算术平均数的计量规则维度讲,则大错特错了。且看标准差原型算法的结构:

被除数(分子)      

除数(分母)

显而易见,标准差原型算法对离差的算术平均化过程中其自由化阶数是,而并非N。也就是说,标准差原型算法对离差的算术平均化过程中其自由度阶数N未能做到全涵盖,其涵盖率只有

其实,方差进行开方的目的在于解决其量纲与离差不一致问题,即方差的量纲是“面积”,离差的量纲是“距离”或“长度”。为了解决这一矛盾,确保反映绝对离散程度指标的量纲与离差相一致,则需要且只需要对各个离差进行平方求和后的算术平均数进行开方还原,就可以将量纲“面积”还原为“距离”或“长度”,而不必且不可以同时也将自由度阶数从N变成。众所周知,如果将自由度阶数从N变成,则意味着N个离差数据由来进行平均化,则显然是非常不科学合理的。

所以,方差的平方根即标准差原型用以衡量和反映变量离散程度的标准差,明显缺乏科学合理性。

如果将标准差计量公式的分母转化成N,亦即对离差平方和的平方根进行自由度阶数N全涵盖的算术平均化,那么就会发现“标准差通常都大于平均差”的决定性因素并非标准差的分子中的离差先平方后开方,而是分母代替了N。请看:

从标准差的分子讲,离差之和的平方大于离差平方之和,亦即离差平方之和的平方根小于离差的绝对值之和,因而离差的先平方后开方不是标准差大于平均差的决定性因素。标准差的分子中的离差先平方后开方,在分母保持不变的条件下,只会导致各个变量与平均值之间偏离程度的相对缩小。

从标准差的分母讲,其分母,即在标准差算法原型中把自由度阶数(亦即变量个数)的平方根作为分母来进行变种后的变量离差(即分子先平方后开方)的算术平均化,请问该分母是什么?谁也说不清楚,事实上谁也没有去关注过这一问题。然而,标准差所存在的最大的、最关键的缺陷性问题就在这里——标准差并非真正的平均化。本来应当由自由度阶数N来对变种后的变量离差(即分子先平方后开方)进行算术平均化,可是标准差原型算法却把自由度阶数N无意识中变成了,由此造成了自由度阶数N信息的严重丢失,使得变量离差的个数N与自由度阶数显著不对称,必然会导致标准差度量和反映变量变异程度的信息失准或失真。