进化稳定均衡与纳什均衡¨
----兼谈进化博弈理论的发展
张良桥*
本文已经发表于《经济科学》,2001
摘要
为了让读者对进化博弈理论的基本概念——进化稳定策略(Evolutionarily Stable Strategy)有一个基本的了解,本文主要介绍进化稳定策略概念的提出及其发展。为了便于理解,文中利用一些具体例子简要地介绍进化稳定均衡(就是系统选择进化稳定策略时所处的均衡)求法、应用以及它与纳什均衡之间的关系。最后指出了传统进化稳定策略定义的缺陷及经济学家们对此所作的进一步研究。
关键词:进化博弈;进化稳定策略;进化稳定状态;纳什均衡
Abstract:
This paper is mainly about the concept of Evolutionarily Stable Strategy (ESS) and its developments. For the convenience of the readers’ better understanding of this basic concept in Evolutionary Game Theory, we use some cases to introduce the solution of Evolutionarily Stable Equilibrium (ESE, that is, the equilibrium when the system selects ESS), its applications and the relationships between Nash Equilibrium and ESE. Finally, we point out the flaws of the traditional concept of ESS and some economists’ researches on this.
Key words:
Evolutionary Game; Evolutionarily Stable Strategy; Evolutionarily Stable Status; Nash Equilibrium
引言
进化生态学与博弈论的结合至少已有三十几年的历史,初看起来使人觉得奇怪,因为博弈论常常假定参与人是完全理性的,而基因和其他的演化载体常常被假定是以一种完全机械的方式运动。然而一旦用参与人群体来代替博弈论中的参与者个人,用群体中选择不同纯策略的个体占群体个体总数的百分比来代替博弈论中的混合策略,那么这两种理论就达到了形式上的统一。进化博弈理论由于对参与人的理性要求较少而与现实更为接近,因此在短短的时间内就获得了迅速的发展。特别是Maynard Smith(1973,1974)等提出基本均衡概念----进化稳定策略(Evolutionarily Stable Strategy ESS)及Taylor and Jonker(1978)提出基本动态概念----模仿者动态(Replicator Dynamics)以后,进化博弈理论被广泛地应用于生物学、社会学等领域。1992年进化博弈理论的国际学术会议在康奈尔大学的召开,正式确定了它在经济学上的学术地位。越来越多的经济学家应用进化博弈理论来解释并预测参与人的群体行为,在多数情况下,它比利用纳什均衡预测人的行为更现实、更准确。由于历史原因,我国经济理论界到目前为此还没有对进化博弈理论的基本均衡概念进行系统介绍的文献。本文试图对进化稳定策略作出简要的介绍,并把该概念与传统博弈论的基本概念—纳什均衡进行比较。
进化稳定策略的定义及性质
进化博弈理论(Evolutionary Games Theory)来自达尔文的生物进化理论。在生物进化过程中不同种群在同一个生存环境中竞争同一种生存资源时,竞争的结果只有那些获得较高适应度(后代成活率)的种群[1]生存下来,那些得到较低适应度的种群在竞争中被淘汰(即优胜劣汰);在进化过程中个体常常会发生突变、迁移、死亡,同时自然条件也会发生剧烈变化等都会对生物进化过程产生影响,因而要对种群进化进行比较完整的分析就必须建立一些能够综合考虑这些因素影响的模型。一般的进化博弈模型主要基于两个方面而建立起来的:选择(Selection)和突变(Mutation)。选择即是指本期中好(能够获得较高支付)的策略在下期变得更为盛行(被更多的参与者采用);突变一般很少发生,它是以随机(无目的性)的方式选择策略(可能是能够获得高支付的策略,也可能是获得较低支付的策略)。新的突变也必须经过选择,并且只有较好的策略才能生存(Survive)下来。选择也可能包括许多形成机制,这些机制可能是生态的(支付决定后代的数量),也可能是个人的(试验、刺激反应等),也可能是社会的(学习与模仿等)。就较好策略变得更为盛行而言,这个过程是适应性(Adaptive)且是不断改进(Improving)的。
Maynard Smith and Price(1973)以及Maynard Smith(1974)在考察种群个体适合度由其行为共同决定条件下个体对成功策略选择的效果时,提出了一个能够综合描述上述各种因素的均衡概念----进化稳定策略,它后来成为进化博弈理论的一个基本均衡概念。
进化稳定策略的基本思想是:假设存在一个全部选择某一特定策略的大群体和一个选择不同策略的突变小群体,突变小群体进入到大群体而形成一个混合群体,如果突变小群体在混合群体中博弈所得到的支付大于原群体中个体在混合群体中博弈所得到的支付,那么小群体就能够侵入大群体,反之就不能够侵入大群体而在演化过程中消失。如果一个群体能够消除任何小突变群体的侵入,那么就称该群体达到了一种进化稳定状态,此时该群体所选择的策略就是进化稳定策略。下面我们利用一个简单的模型来给出进化稳定策略的定义。
进化稳定策略是在研究生态现象时提出来的,生态学中每一个种群的行为都可以程式化为一个策略,所以在一个生态环境中所有种群就可以看作一个大群体,群体中个体之间进行的是对称博弈[2]。下面就以为对称博弈为例来介绍进化稳定策略的定义。假定存在一个个体数为n(N={1,2,…,n })的大群体[3],其中n是一个充分大的数。群体中每一个个体
其中
假定在大群体中存在一个选择突变策略
(a)、期望支付函数(在生态学里面一般称为“适应度”fitness函数)是对称的,即
(b)、支付函数对各分量是连续的,
(c)、如果
那么群体中个体应该选择策略s。
上面的假定(a)来自于前面单群体的假定,由于我们考察的是单群体的情形,即博弈中各参与者个体都有相同的行动集,并且群体中每一个个体都与选择相同混合策略h的虚拟参与人进行博弈,因此博弈的支付矩阵是对称的;假定(b)是为了技术上处理的方便;假定(c)说明本期中能够获得较高期望支付的策略在下期变得更盛行,这一点是来自于达尔文的优胜劣汰理论,也是进化博弈理论关键所在。
如果上面的严格不等式对任何
策略
由进化稳定策略的定义,可以得到一些简单的性质,下面给出并证明其中的两个重要性质。为了说明的方便,定义符号
性质1、如果策略s是进化稳定策略,那么对任何
证明 性质(1)说明策略s是相对于其自身的最优反应策略之一,也就是
如果存在满足
即策略s不是进化稳定策略,这与条件矛盾,所以对任何
性质2、如果策略s是进化稳定策略且对任何策略
证明 假定
综合这两个性质就得到Maynard Smith (1974)及Taylor and Jonker (1978)给出进化稳定策略的第三个性质,此后许多有关进化博弈理论方面的文献都沿用此性质作为对进化稳定策略的正式定义。
性质3、 如果策略
(ⅰ)对任何
(ⅱ)
那么策略s是进化稳定策略。第一个条件说明:如果策略s是进化稳定策略,那么选择突变策略
进化稳定均衡与纳什均衡之间的关系
为了比较进化稳定均衡与纳什均衡之间的关系,我们给出n人博弈纳什均衡的定义。说策略组合
纳什均衡策略即是对其自身的最优反应策略,反过来一个策略是对其自身的最优反应策略,则它必定是纳什均衡策略,于是用本文前面的符号来表示纳什均衡的定义即是性质(3)的条件(ⅰ)。因此,如果策略s是进化稳定策略,那么它一定是纳什均衡策略,进化稳定均衡必定是纳什均衡,所以进化稳定均衡是纳什均衡的精炼。性质(3)的第二个条件是对纳什均衡的一个限制,该条件说明弱劣的纳什均衡策略并不一定是进化稳定策略,即并不所有的纳什均衡策略都是进化稳定策略。
为了更好地理解这一点,下面用一个具体的数字例子来说明,考察如下博弈[5]:
|
s1 |
s2 |
s3 |
s1 |
0 |
1 |
-1 |
s2 |
-1 |
0 |
1 |
s3 |
1 |
-1 |
0 |
根据进化稳定策略定义的性质(3),要求一个博弈的进化稳定策略可先求出该博弈的纳什均衡策略,然后再检验纳什均衡策略是否为进化稳定策略即可。上面这个博弈只有一个混合策略纳什均衡
老鹰-鸽子是指两种策略并不是老鹰与鸽子之间的博弈。现实中老鹰比较凶猛;鸽子比较温驯。在建立进化博弈模型时,我们常常把老鹰、鸽子两种完全不同生性的动物模型化为两种不同的策略。假定有两个参与者群体,其中每个群体都有两种可供选择的策略即老鹰策略(H)和鸽子策略(D),博弈的支付矩阵如下:
|
s1 |
s2 |
s1 |
-2 |
1 |
s2 |
0 |
-1 |
如果两个参与者个体都选择老鹰策略,由于双方都非常凶猛,博弈的结果双方都受伤,因此他们得到的支付模型化为-2;如果一个参与者个体选择老鹰策略而另一个参与者个体选择鸽子策略,博弈结果选择老鹰策略者得到支付模型化为1,而选择鸽子策略者得到支付模型化为0(弱肉强食);如果双方选择策略鸽子策略,博弈的结果双方得到支付模型化为-1(每个参与者都要付给博弈组织者1个单位的支付)。这个博弈有两个纯策略纳什均衡(s1, s2)、(s2,s1)和一个混合策略纳什均衡
下面我们证明混合策略纳什均衡是进化稳定策略,根据进化稳定策略的定义我们只须证明:给定参与者个体选择混合策略
利用简单的代数运算可以得到
其中
如果
最后我们给出一个非常明显的结论。在博弈论中弱劣策略可以是纳什均衡策略,那么弱劣策略是否可能是进化稳定策略呢?我们说弱劣策略绝对不会是进化稳定策略。这一点很容易说明,假定弱劣策略s是一个进化稳定策略,即存在一个策略
从定义可以看出,进化稳定策略是一个静态概念,但却能够反映进化系统局部的动态性质,其作用的大小取决于它能够在多大程度上对系统动态性质的描述。纳什均衡与此不同,它是一个静态的概念且不能也不需要反映系统的动态性质,因此经典博弈理论仅用纳什均衡这一概念就能够描述博弈的一般性质。正是由于ESS需要反映系统的动态特征,所以在不同的动态下,同一个博弈会有不同的进化稳定均衡,因此要提出一个能够描述进化博弈一般特征的均衡概念,比纳什均衡复杂得多。
进化稳定均衡的效率分析
纳什均衡并不一定具有帕累托效率,如囚徒困境博弈中的纳什均衡便不具有帕累托效率。进化稳定均衡是不是一定具有帕累托效率呢?下面我们利用经典博弈论中常用的两个例子囚徒困境和风险博弈对此进行说明。首先考察如下的囚徒困境博弈,
|
s1(认罪) |
s2(不认罪) |
S1(认罪) |
5 |
-5 |
S2(不认罪) |
10 |
0 |
合作策略(
下面这个例子中存在多个进化稳定均衡,这是一个关于保险方面的博弈,博弈的支付矩阵如下,
|
C(合作) |
N(不合作) |
C(合作) |
5 |
0 |
N(不合作) |
3 |
2 |
这个博弈有两个纯策略严格纳什均衡[7],并且都是进化稳定均衡,然而,合作均衡严格帕累托优于非合作均衡。同时这个博弈还有一个弱的混合策略纳什均衡
对进化稳定策略概念的进一步研究
进化稳定策略是进化博弈理论最基本的概念,上面所给出的ESS定义是Maynard Smith and Price(1973)在描述生物进化现象时提出的。在考察生物现象时,他们把每一个种群的行动都程式化为一个策略,因而把整个生态环境中所有种群看作一个单一的大群体,即各种群个体之间进行的是对称博弈,在此基础上提出了进化稳定策略的定义,那么这个在考察对称博弈时得出的概念对群体进行非对称博弈[8]时是否适应呢?有许多博弈论理论家对此进行了详细的讨论并得出:传统ESS并不适应于非对称博弈(Selten 1980),并且存在这样的博弈:单群体时没有进化稳定均衡而在多群体时却存在进化稳定均衡。Selten同时证明在非对称博弈中传统的进化稳定均衡与严格纳什均衡是一个等价概念。此外,从Maynard Smith and Price 所提出的原初定义还可以看出:传统ESS定义仅考虑到系统受到独立且不重叠突变的影响的情形,而没有考虑到当系统受到离散且重叠或者连续冲击时对均衡的影响,因此传统的ESS不适合后一种情形。要对群体行为的动态调整过程进行更为全面的分析,传统的ESS定义作用的局限性就表现出来了。
为了克服这些缺点,使理论能够更好地与现实接近,许多经济学家及生态学家对传统的ESS概念进行了不断的修进并提出了许多新的均衡概念。Selten(1980)首次探讨了非对称博弈中的均衡问题,他通过引入角色限制行为(Role Conditioned Behavior)提出了极限ESS[9](Limit ESS)概念,从而把传统的ESS引入到非对称博弈中。Schaffer, M. E., (1988) 首次研究了有限群体的均衡问题进而提出了有限群体进化稳定策略的新概念,他同时证明了有限群体进化稳定策略并不总是纳什均衡策略;Foster, D., and P. Young (1990) 首次把连续随机因素引入动态系统,并提出随机稳定性(Stochastic Stable Set)概念[10];Gilboa and Matsui(1991)提出的循环稳定集[11](Cyclically Stable Set),他们把传统的ESS引入到随机动态系统。Maynard Smith(1982)提出了一个比ESS更一般的中性稳定策略(Neutrally Stable Strategy)的概念,Binmore and Samuelson(1992)提出了类似的修正的ESS(Modified ESS)概念。这些概念的提出进一步丰富和完善了进化博弈理论的基本内容。
进化博弈理论的发展简介
进化博弈理论于二十世纪六十年代被生态学家们用于解释生态现象就已经产生了;在七十年随着ESS(Maynard Smith and Price1973; Maynard Smith1974)概念的提出,它就被越来越多的生态学家们所利用,在这个阶段有少数经济学家(Jones 1976, Hirshleifer, J.,1977)开始把生态观点引入到经济学领域,Hirshleifer认为应用进化博弈模型来解释经济规律是一个很自然的事情,Jones(1976)利用进化理论来解释一些货币现象;八十年代随着对经典博弈论研究的深入,许多经济学家把进化博弈理论引入到经济学领域,用于分析社会制度变迁(Axelrod and Hamilton(1981); Axelrod(1984))、行业演化(Porter, M1980)以及股票市场(Conlisk 1980; Cornell and Roll 1981)等等,同时对进化博弈理论的研究也开始由对称博弈向非对称博弈深入(Selten 1980;1983),并取得了一定的成果;进入九十年代,尤其是1992年在关于进化博弈理论的会议在康奈尔大学召开,进化博弈理论在经济学上的学术地位得到正式的认可,在这个阶段经济学家对进化博弈理论的研究进入了一个崭新的阶段,理论家们不仅考察了离散非重叠冲击对演化系统的影响,而且也把离散重叠冲击(Kandori, M. G. Mailath, and R. Rob 1993; Bergin and Barton 1996)及连续冲击对进化系统的影响(Foster, D., and P. Young 1990; Fudenberg, D. and C. Harris 1992)纳入到模型之中并对之进行深入的研究,进化博弈理论的应用已经渗透到了经济学领域中的各个方面,如Peyton Young(1993,1998)等利用进化博弈理论来研究社会习俗的形成、Fudenberg(1995)等利用进化博弈理论来研究社会学习过程、青木昌彦等(1996)利用进化博弈理论来分析社会经济体制形成的原因等等。
结束语
在生态学中,由于不同种群的行为可以被程式化为不同的纯策略,因而种群之间的博弈是对称的,另外种群所受到的影响(自然灾害、基因突变等)也是不连续的,所以传统的ESS概念能够很好地解释生态现象。然而,把进化博弈理论用于解释人的群体行为时,由于人与动物不同,人可以通过学习、模仿、试验等活动而作出行动选择,这样就使得系统的复杂程度增加。研究人的群体行为所建立的博弈模型一般是非对称的,而在非对称博弈中,传统ESS概念等价于严格纳什均衡策略,而严格纳什均衡本来就显示出许多理想的性质,如果把注意力集中于对严格纳什均衡的研究是没有任何实际意义的。此外,进化博弈理论利用系统论的观点来考察群体行为的演化过程,其均衡概念与进化动态的调整过程有关,而群体行为的动态过程是相当复杂的,所以要用一个统一的均衡来描述进稳定状态的困难就比较大。到目前为止还没有一个既能描述对称博弈又能描述非对称博弈且对所有动态过程都适应的均衡概念,并且进化博弈的理论体系还比较粗糙且存在许多不完善之处,但从进化博弈的应用及其发展趋势来看,我们有理由相信在不久的将来该理论一定会走向成熟,会成主流经济学的一个重要组成部分。
附录:
下面我们利用模仿者动态来证明,定义
由博弈的具体数据得到:
该博弈有两个平稳点,
参考文献
王则柯(1999):《博弈论评话》,中国经济出版社。
张维迎(1996):《博弈论与信息经济学》,上海三联出版社。
青木昌彦,奥野正宽(1996):《经济体制的比较制度分析》,中国经济出版社。
Axelrod, R. (1984): The Evolution of Cooperation, Harper-Collins, HBJ, Press.
Axelrod, R. and
Bergin, J. and L. L. Barton (1996): Evolution With State-Dependent Mutations, Econometrica, 64, 943-956.
Binmore ,K. and Larry Samuelson (1992), Evolutionary Stability in Repeated Games Played by Finite Automata, Journal of Economic Theory 57, 278-305.
Conlisk, J., (1980): Costly Optimizers Versus Cheap Imitators, Journal of Economic Behavior and Organization, 1, 275-293.
Cornell, B., and Roll, R., (1981): Strategies for Pairwise Competitions in Markets and Organizations,
Foster, D., and P. Young(1990):Stochastic Evolutionary Game Dynamics, Theoretical Population biology, 38, 219-232.
Fudenberg (1995): Learning in Games,
Fudenberg, D. and C. Harris (1992): Evolutionary Dynamics with Aggregate Shocks, Journal of Economic Theory, 57, 420-441.
Hirshleifer, J.,(1977): Economics from a Biological Viewpoint, The Journal of Law and Economics, 20, 1-52.
Jones, R.,(1976): The Origin and Development of Media of Exchange, Journal of Political Economy, 84, 757-775.
Kandori, M. G. Mailath, and R. Rob (1993): Learning, Mutation, and Long-run Equilibria in Games, Econometrica, 61, 29-56.
Maynard Smith, J. (1974): The Theory of Games and the Evolution of Animal Conflict, Journal of Theor. Biol. 47, 209-212.
Maynard Smith, J. (1982): Evolution and the Theory of Games,
Maynard Smith, J. and G. R. Price (1973): The Logic of Animal Conflicts, Nature, 246, 15-18.
Selten, R. (1980): A Note on Evolutionarily Stable Strategies in Asymmetric Games Conflicts, Journal of Theoretical . Biology. 84, 93-101.
Schaffer, M. E. (1988): Evolutionarily Stable Strategies for a Finite Population and a Variable Contest Size. Journal of theoretical Biology, 132, 469-478.
Selten, R. (1983): Evolutionary Stability in Extensive Two-person Games, Math. Soc. Sci. 5, 269-363.
Taylor, P. D. and L. B. Jonker (1978): Evolutionarily Stable Strategy and Game Dynamics, Math Biosci. 40, 145-156.
Van Damme, E. (1991): Stability and Perfection of Nash Equilibria (2nd edn),
Young, H. P. (1993): The Evolution of Conventions, Econometrica, 61, 57-84.
Young, H. P. (1998): Social Norms and Economic welfare, European Economic Review 42, 821-830.
¨本文在写作过程中始终得到了恩师王则柯教授的悉心指导及多次批阅。在此,谨向他表示衷心的感谢。文中如有不当之处概由作者本人负责。
[1] 进化博弈用于分析生物现象时,把每一个种群程式化一个策略。这一点与分析人类群体的行为不同,因为人能够随着所处的环境的变化而选择不同的策略。
[2] 对称博弈是指群体中个体无角色区分的博弈,在进化博弈中,不同角色一般按个体所能够选择的纯策略集合是相同还是不相同来区分的,因此对称博弈中所有的个体都有相同的行动空间。
[3]进化博弈中群体是按其个体所能选择的纯策略集是否相同来划分的,有相行动集的个体组成一个群体。
[4] 实际上这里所说的混合策略是群体中在某一时点选择不同纯策略的个体占群体中个体总数的一个频率分布,在n充分大时由概率论中的大数定律可知,频率分布可以近似地看作概率分布。
[6] 从进化稳定策略的定义我们知道,只有在单一群体时该定义才成立,而在单一群体时,由于其中个体无角色区分,即我们无法从群体中分离出两种类型的个体,所两个纯策略纳什均衡不可能是进化稳定策略。
[7]一个纳什均衡(s,s)称为严格纳什均衡,如果对任何策略
[8] 非对称博弈即是指多群体博弈,在进化博弈理论群体是按个体所能选择的行动集来划分的,有相同行动集的个体组成一个群体,因此不同群体的个体之间进行博弈时,支付矩阵是非对称的,这就是非对称博弈名称的由来。
[9] 他给出了如下的定义(以两群体的情形为例):在非对称博弈G中,一个行为策略
(ⅰ)对任意的
(ⅱ)如果
[10] 一个状态P是随机稳定状态,如果在长期中,随着随机冲击影响的不断变少,系统几乎一定(nearly certain)不会离开P的任意少的邻域。
[11]这个概念直接来源于群体行为的调整过程。其基本思想是“可接近性”(Accessibility),我们可以把这种性质粗略地定义如下:一个策略分布f可以接近另一个策略分布g,如果存在一条从f到g的道路,且在该道路方向上任何一点都是相对于该点的最优反应。循环稳定集是指在满足“可接近性”条件下封闭的策略分布集合,即在该集合中任何两个分布之间都是可接近的,且集合内的任何分布与集合外的分布都不满足可接近性。