掷币游戏与民主投票的概率分析


掷币游戏与民主投票的概率分析
 
廖仁平
 
关键词:概率 硬币 民主投票 二项分布
 
 :从二项试验与二项分布的相关性质出发,分析了选择性民主投票结果的分布特点。
 
1 二项试验与二项分布简介
 
二项分布是离散型随机变量的分布,也是心理与教育统计中常用的一种基本随机变量分布。
 
1.1二项试验。
二项试验又称贝努里试验,即
(1)任何一次试验恰好有两个结果,成功与失败,或AĀ(读作非A)
(2)共有n次试验,并且n是预先给定的任一正整数。
(3)各次试验相互独立,即各次试验之间无相互影响。
例如投掷硬币的试验属于二项试验,每次只有两个可能结果:正面向上或反面向上。如果一个硬币掷10次,或10个硬币掷一次,这时独立试验的次数为n10,再如选择题组成的测验,选答不是对就是错,只有两种可能结果,也属于二项试验。但在一般心理和教育实验中,很难保证第一次的结果完全对第二次结果无影响。譬如,对前面题目的选答可能对后面题目的回答有一定的启发或抑制作用,这时我们只能将它假设为近似满足不相互影响。
(4)任何一次试验中成功或失败的概率保持相同,即成功的概率在第一次为P(A),在第n次试验中也是P(A),但成功与失败的概率可以相等也可以不等。这一点同第三点一样,有时较难保证,实验中需要认真分析,必要时仍可假设相等。例如,某射击手的命中率为070,但由于身体状态、心理状态的变化,在每一次射击时,命中率并不能保证都准确地是070,但为了计算,只可假设其相等。
凡符合上述要求的实验称为二项试验。二项试验的例子在心理与教育实验中是很多的。
 
1.2二项分布
二项分布是指统计变量中只有性质不同的两项群体的概率分布。所谓两项群体是按两种不同性质划分的统计变量,是二项试验的结果。即各个变量都可归为两个不同性质中的一个,两个观测值是对立的。因而两项分布又可说是两个对立事件的概率分布。
二项分布用符号b(xnp),表示在n次试验中有x次成功,成功的概率为p
二项分布的概率函数可写作:
               (5—9)
式中x0123.....n为正整数
           
两项分布中含有两个参数np,当它们的值已知时,便可计算出分布列中各概率的值。
1     掷硬币试验。有10个硬币掷一次,或1个硬币掷十次。问五次正面向上的概率是多少?
解:根据题意n10pq1/2x5
b(5l01/2) = C102 p5 q10-5
= 10! / (5!(10-5)!) * (1/2)5 * (1/2)5
= 252 * (1/32) * (1/32)
= 024609
所以五次正面向上的概率为024609
此题若问五次及五次以上正面向上的概率是多少?
解:此题要求出五次及五次以上正面向上的概率之和。正面有五次、六次、七次、八次、九次、十次。依公式5—9应为:
        C105 p5 q10-5 + C106 p6 q10-4 + C107 p7 q3 + C108 p8 q2 + C109 p9q1 + C1010 p10 q0
= 252/1024+210/1024+120/1024+45/1024+10/1024+1/1024
= 638/1024
= 0623
五次及五次以上正面向上的概率为0623
此题各项展开式的系数,若用杨辉三角计算也十分方便。读者:前面的杨辉三角写到(p+q)10。试比较五次及五次以—LK面向;的各项系数是否为25221012045101
 
100次硬币时,正反面各出现50次的情况就是概率最大的情况,但这种概率单独看来并不大,仅仅为:A=0.0796   而出现正面45次~55次的这11种情况的概率和却是:B=0.7286   它意谓着每抛掷100次硬币时,约有73%的可能是出现正面45次~55次之间的情况。
解:根据题意n100pq1/2x50
A=b(50l001/2)= C10050 p50 q100-50 =0.0796
B= b(50l001/2)+ 2b(51l001/2)+ 2b(52l001/2)+ 2b(53l001/2)+ 2b(54l001/2)+2 b(55l001/2)= C10050 p50 q100-50 + 2C10051 p51 q100-51 + 2C10052 p52 q100-52 +2C10053 p53 q100-53 + 2C10054 p54 q100-54 + 2C10055 p55 q100-55 =0.0796+2×0.0780+2×0.0735+2×0.0666+2×0.0579+2×0.0485=0.0796+2×(0.0780+0.0735+0.0666+0.0579+0.0485)= 0.0796+2×0.3245=0.0796+0.6490=0.7286
 
如果二项分布满足p<qnp≥5(p>qnp≥5)时,二项分布接近正态分布。这时,也仅仅在这时,二项分布的x变量(即成功的次数)具有如下性质:
            μ= np                       (5—10a)
                                (5—10b)
x变量具有μ= np的正态分布。
 
几个重要的面积比例 轴与正态曲线之间的面积恒等于1。正态曲线下,横轴区间(μ-σμ+σ)内的面积为68.268949%,横轴区间(μ-1.96σμ+1.96σ)内的面积为95%,横轴区间(μ-2.58σμ+2.58σ)内的面积为99%
 正态曲线下标准差与概率有一定的比率关系
 
    根据正态曲线的形状及其总面积收敛于1的特点可知:均数μ的概率密度最大,但它必然随着n的增大而减小。
 
2 二项分布的性质
2.1 二项分布是离散型分布,概率直方图是跃阶式的。因为x为不连续变量,用概率条图表示更合适,用直方图表示只是为了更形象些。
(1)pq时图形是对称的
2   (p+q)6p=q1/2,各项的概率可写作:
            p6+6p5q+15p4q2+20p3q3+15p2q4+6plq5+q6
          = 1/64+6/64+15/64+20/64+15/64+6/64+1/64
          = 1
(2)p≠q时,直方图呈偏态,p<qp>q的偏斜方向相反。如果n很大,即使p≠q,偏态逐渐降低,最终成正态分布,二项分布的极限分布为正态分布。故当n很大时,二项分布的概率可用正态分布的概率作为近似值。何谓n很大呢?一般规定:当p<qnp≥5,或p>qnq≥5,这时的n就被认为很大,可以用正态分布的概率作为近似值了。
2.2二项分布的平均数与标准差
如果二项分布满足p<qnp≥5(p>qnp≥5)时,二项分布接近正态分布。这时,也仅仅在这时,二项分布的x变量(即成功的次数)具有如下性质:
            μ= np                       (5—10a)
                                (5—10b)
x变量具有μ= np的正态分布。
式中n为独立试验的次数,
p为成功事件的概率,q1- p 由于n很大时二项分布逼近正态分布,其平均数,标准差是根据理论推导而来的,故用μσ而不用XS表示。它们的含意是指在二项试验中,成功的次数的平均数μ=np,成功次数的分散程σ=npq。例如一个掷10枚硬币的试验,出现正面向上的平均次数为51/2*10),正面向上的散布程度为10*1/2*1/2)= 158(),这是根据理论的计算,而在实际试验中,有的人可得10个正面向上,有人得9个、8……,人数越多,正面向上的平均数越接近5,分散程度越接近158
 
3二项分布的应用
二项分布在心理与教育研究中,主要用于解决含有机遇性质的问题。所谓机遇问题,即指在实验或调查中,实验结果可能是由 ?猜测而造成的。比如,选择题目的回答,划对划错,可能完全由猜测造成。凡此类问题,欲区分由猜测而造成的结果与真实的结果之间的界限,就要应用二项分布来解决。
3    有正误题10题,问答题者答对几题才能认为他是真会,或者说答对几题,才能认为不是出于猜测因素?
此题pq=1/2,即猜对猜错的概率各为05np≥5,故此二项分布接近正态分布:
         μ=np=10*0.55
        
根据正态分布概率,当Z=1.645时,该点以下包含了全体的95%。如果用原分数表示,则为
    μ+1.645σ=5+1.645*1.58=7.6≈8
它的意义是,完全凭猜测,10题中猜对8题以下的可能性为95%,猜对8910题的概率只5%。因此可以推论说,答对8题以上者不是凭猜测,而是会答。但应该明确:作此结论,也仍然有犯错误的可能,即那些完全靠猜测的人也有5%的可能性答对8910道题。
此题的概率值,还可用二项分布函数直接计算,亦得与正态分布近似的结果:
b(8 10 0.5)C102p8q2 10*9/2*0.58*0.52 45/1024
b(9 10 0.5)C101p9q1 10*0.59*0.51 10/1024
b(10 10 0.5) C100p10 1/1024
根据概率加法,答对8题及其以上的总概率为:45/1024+10/1024+1/102456/1024 = 00547 同理,可计算8题以下的概率为 95%。(近似)
4    10道多重选择题,每题有5个答案,其中只有一个是正确的。问答对几题才能说不是猜的结果?
此题n10p1/5 = 02q = 08np<5,故此题不接近正态分布,不能用正态分布计算概率,而应直接用二项分布函数计算猜时各题数的概率:
    b(10100.2)C1000.210×0.801×0.210×0.800.000000102
    b(9100.2)=Cl010.29×0.8110×0.29×0.810.000004096
    b(8100.2)= Cl020.28×0.8245×0.28×0.820.000073728
    b(7100.2)Cl030.27×0.83120×0.27×0.830.000786432
    b(6100.2)Cl040.26×0.84210×0.26×0.840.00550524
    b(5100.2)Cl050.25×0.85252×0.25×0.850.026424115
    b(4100.2)Cl060.24×0.86210×0.24×0.860.088080384
根据以上所计算的猜对各题数的概率,可用概率加法求得猜对5题及5题以上的概率为003279,不足5%,故可推论说答对5题以上者可算真会,作此结论仍有33%犯错误的可能。
若上例中题数增加到30题,则np>5,就可用正态分布的概率计算:
解:μ=np=30*0.26
Xμ+1.645×σ=6 +1.645×2.1919.6
因此可得结论,答对10题或10题以上,才能被认为是真会。作此结论犯错误的概率为5%。
如果想使推论犯错误的概率降为1%,则根据正态分布可求得此时的z2.33,使用相同的计算方法,只将2.33代替1.645,可求得临界的分数(或答对的题数)
 
4抛掷硬币结果与选择性投票的概率分布相似性
抛掷一枚硬币,当其落地时,或正面向上,或反面向上,二者必居其一,这是一种最简单的概率事件。它们的理论概率都是1/2
100次硬币时,正反面各出现50次的情况就是概率最大的情况,但这种概率单独看来并不大,仅仅为:A%A=0.0796  而出现正面45次~55次的这11种情况的概率和却是B% B=0.7286   它意谓着每抛掷100次硬币时,约有73%的可能是出现正面45次~55次之间的情况。
  
同一硬币随机抛掷100次与分别随机抛掷100枚硬币的结果是等同的。
如果让100个人单独地对AB两个选项进行独立投票,当这100人都对AB没有明显偏向时,投票结果就与同一硬币随机抛掷100次后确定其正反而出现的比例这个游戏相当。
现实生活中人们的选择行为(任何选择行为都可广义地看成是一种投票行为)有静态与动态之分。
静态地看某个时空的某一确定人群,他们中有的人可能对AB两个选项已经有了明确的态度,比如说赞成A而反对B,或者说七成赞成A而三成反对B…有的人无所谓,对AB两个选项没有偏向独立投票结果可以总体反应出此100人此时的选择。
动态地看某一确定人群,随着时间的变化,他们中的每个人对AB两个选项的态度都可能有变化。原来赞成A而反对B的人有可能态度完全改变或部分改变,原来无所谓的人也可能对AB两个选项有了偏向独立投票结果可以总体反应出此100人动态变化后的选择。
人群在不同时期对同一选项会有不同的选择结果,投票结果明朗化了人们这种选择的客观存在,这种客观存在相当于是一种概率事件的实现。实现了的事件的存在概率是100%,但它的理论概率却可能并不很大甚至于较小。这就是偶然与必然的辩证关系。理论上的小概率事件一旦发生,就成为了现实,但它并不意谓着是必然性所致。这种现象的存在意谓着任何实际态的出现既有内在概率的必然,也有其运气成份的偶然。
一个群体的投票结果是概率性必然与实际偶然性的对立统一结果,单独一个人的思想观念形成过程也同样存在着这种概率性必然与实际偶然完成的对立统一。
 
实际生活中,人们的投票选择行为远比上例复杂一般化情况是:N人对M个方案进行或明确或隐藏的投票,每个人对每个方案的偏好不同且随时随地会动态变化但任何投票结果都有其内在概率的必然性要求也有实际实现的偶然性事实。但均衡态(最可几概率态)周围一定范围内的结果将包含绝大多数实际结果(比如说95%的结果)。反过来说,可以将已经出现的任何结果看成是95%可能性上,它会处在某最可能态周围一定范围内。