纳什均衡算法_博弈均衡的进化稳定策略的算法

‘壹’ 博弈均衡的进化稳定策略的算法

计算进化稳定策略的方法主要有两大类：一是从动态过程出发，求出系统的平衡点，然后，再根据进化稳定策略的定义进行验证就可以了；另一种方法就是直接用进化稳定策略定义来求。第一种方法涉及到具体的动态过程，并且只要知道动态过程就很容易求出进化稳定策略，本文略（可以参考张良桥2001）。第二种方法就是通过定义来求，下面给出一种简单的处理方法。
根据纳什均衡的定义可以知道，如果策略是博弈的纳什均衡，那么，所有以正概率进入最优混合策略的纯策略都是最优的，参与人在所有这些纯策略所得的支付都是无差异的（见《博弈论与信息经济学》102-103页，张维迎），即有：
表示混合策略中非零概率的纯策略。假定存在且下标为的纯策略满足，令B是矩阵A中对应于非零纯策略的阶子矩阵。且令C为矩阵，其中代表元素为：。那么当且仅当C是负定的，就是进化稳定策略(见John Haigh 1974)。
证明：假定，并且存在，有，那么很明显有，其中是第个纯策略，即在与稳定策略者群体博弈时，突变策略者得到的支付比稳定策略者还要大，所以策略不是进化稳定策略，所以式（6）是进化稳定策略的必要条件。因此，对应于非零概率的纯策略满足：，对满足条件的策略有（注意）：
对任意，当且仅当
有：。综上所述，利用该方法来求进化稳定策略的步骤如下：
首先，令个非零混合策略，然后解个方程：，定义B，C再考察矩阵C的所有特征根是否都为负，若都是负则所得的策略就是进化稳定策略。
如求对称博弈，它有两个进化稳定策略：。
如果某策略组合是严格纳什均衡策略，那么就可以直接得出它就是进化稳定策略，但如果是弱纳什均衡策略，那么就可运用上述的方法来进行判定。由此，可得到求博弈的进化稳定策略步骤：一是求出博弈所有的纳什均衡；二是由支付判断出其中的严格纳什均衡；三对非严格纳什均衡而言就代入上述方程，并判断是否为负定即可以求出博弈中所有进化稳定策略。

‘贰’ 博弈均衡的纳什均衡思想及其内涵

非合作博弈论研究面对利益冲突的个体互动时，参与人的策略反应。给定利益冲突每一个参与人必须从既定的选择集中作出选择。在博弈论中选择就是策略，选择集就是策略集。每一个参与对选择集中的各个策略都有既定的偏好，所有参与人的选择决定了博弈的结果。
博弈论关心的问题之一是：面对特定博弈，其解是什么？博弈论的最重要的解就是由博弈论理论家Nash(1951)在研究非合作博弈问题时提出来的纳什均衡。所谓纳什均衡策略是一个策略组合，是指在其他参与人选择一定的条件下，每一个参与人都选择获得最大支付的策略，换句话说，纳什均衡状态就是任何单独偏离不会得到改善的一种状态。下面给出纳什均衡的正式定义（张维迎《博弈论与信息经济学》1994，P69）：
定义：有个参与人的战略表示式博弈，策略组合是一个纳什均衡，对每一个参与人，都是给定其他参与人选择时第个参与人的最优选择。
其实在求解纳什均衡时，就是解联立的偏微分方程组。显然，纳什均衡是一个局部最优而非全局最优均衡概念，因此，纳什均衡并不能保证就是支付最高的不动点。由此便引出了帕累托效率均衡：没有所有参与人都得到更高支付的其他选择的均衡就是帕累托效率均衡，用数学语言来描述（Menasché.D.S. et. al. (2005)）
博弈论关心的问题之二是：参与人是如何进行策略选择的，为什么会选择纳什均衡策略？非合作博弈理论假定参与人是完全理性的，在处理动态博弈时，还要求参与人满足序贯理性这一比理性更强的要求。在如此强的假定下，参与人会对世界的任何变化都会作出最优反应，因此，如果存在均衡，那么参与人总会选择均衡策略，但在处理多重要均衡问题时，由于参与人难以推测对方的反应，因此，无法在多重均衡之间进行选择，尽管博弈论理论对此进行了广泛而深入的研究，但正如Ken Binmore在给Weibull(1995)的“evolutionary game theory”一书作的序言中指“However different game theorists proposed so many different rationality definitions the available set of refinements of Nash equilibrium became embarrassingly large, Eventually almost any Nash equilibrium could be justified in terms of someone or other’s refinement”。有关纳什均衡算法可参阅王则柯，李杰（2005）。

‘叁’ 纳什均衡点,应怎样理解请举出具体的例子,

纳什平衡,又称为非合作赛局平衡,是博弈论的一个重要概念,以约翰·纳什命名.
如果某情况下无一参与者可以独自行动而增加收益,则此策略组合被称为纳什均衡点
经典的例子就是囚徒困境,囚徒困境是一个非零和博弈. 大意是：一个案子的两个嫌疑犯被分开审讯,警官分别告诉两个囚犯,如果你招供,而对方不招供,则你将被立即释放,而对方将被判刑十年；如果两人均招供,将均被判刑两年.如果两人均不招供,将最有利,只被判刑半年. 于是,两人同时陷入招供还是不招供的两难处境. 但两人无法沟通,于是从各自的利益角度出发,都依据各自的理性而选择了招供, 这种情况就称为纳氏均衡点. 这时,个体的理性利益选择是与整体的理性利益选择不一致的.
学术争议和批评
第一,纳什（Nash）的关于非合作（non-cooperative）博弈论的平衡不动点解（equilibrium/fixpoint）学术证明是非构造性的（non-constructive）,就是说纳什用角谷静夫不动点定理（Kakutani fixed point theorem）证明了平衡不动点解是存在的,但却不能指出以什么构造算法如何去达到这个平衡不动点解.这种非构造性的发现对现实生活里的博弈的作用是有限的,即使知道平衡不动点解存在,在很多情况下却找不到,因此仍不能解决问题.[来源请求]在数学意义上,纳什并没有超越角谷静夫不动点定理.
经过《美丽心灵》的Sylvia Nasar（书作者）和Ron Howard（电影作者）这样的主流媒体的介入,角谷静夫（Kakutani）在这些人的作品里被完全忽略.有人认为,“纳什平衡”（Nash equilibrium）的更合适的名字应该叫作“角谷静夫—纳什博弈论不动点”（Kakutani-Nash game-theoretic fixed point）或“角谷静夫—纳什平衡”（Kakutani-Nash equilibrium）,没有角谷静夫不动点定理,纳什的证明没有多大学术意义.《美丽心灵》完全忽视角谷静夫之关键贡献的作法有待商榷.
第二,纳什的非合作（non-cooperative）博弈论模型仅仅是突破了博弈论中的一个局限.一个更大的局限是,博弈论面对的往往是由几十亿节点的庞大对象构成的社会、经济等复杂行为,但冯·诺伊曼（Von Neumann）和纳什的研究是针对两三个节点的小规模博弈论（有人称之为tiny-scale toy case）.[来源请求]
这个假设的不完善处,可能比假设大家都是合作的（cooperative）更严重.因为在经济学里,一个庞大社会里的人极不可能全部都是合作的,非合作的情况通常在庞大对象的情形中更普遍,而在两三个节点的小规模经济中倒反而影响较小.既然改了合作前提为非合作前提,却仍然停留在两三个节点的小规模博弈论中,这是一个不可忽视的缺陷.最近香港城市大学和北京清华大学的学者群邓小铁、姚期智在基于复杂度理论的大规模博弈论上有所进展.
MIT的一位计算机科学博士生的博士论文(pdf http://people.csail.mit.e/costis/thesis.pdf )——获得2008年度美国计算机协会学位论文奖——认为经济学家的推测是错误的,找到纳什均衡点是几乎不可能的事. 目前担任MIT电机工程和计算机科学系助理教授的Constantinos Daskalakis与 UC伯克利的Christos Papadimitriou、英国利物浦大学的Paul Goldberg合作,证明对某些博弈来说,穷全世界所有计算机之力,在整个宇宙寿命的时间内也计算不出纳什均衡点.Daskalakis相信,计算机找不到,人类也不可能找到.纳什均衡属于NP问题,Daskalakis证明它属于NP问题的一个子集,不是通常认为的NP-完全问题,而是PPAD-完全问题.这项研究成果被一些计算机科学家认为是十年来博弈论领域的最大进展.
不过在同一篇论文里,Daskalakis也指出,在参与者匿名的情况下,则仅需多项式时间即可逼近纳什均衡.
现实的例子
上述例子可能显得不甚自然,但现实中,无论是人类社会或大自然都可以找到类似囚徒困境的例子,将结果划成同样的支付矩阵.社会科学中的经济学、政治学和社会学,以及自然科学的动物行动学、进化生物学等学科,都可以用囚徒困境分析,模拟生物面对无止境的囚徒困境博弈.囚徒困境可以广为使用,说明这种博弈的重要性.以下为各界例子：
[编辑] 政治学例子：军备竞赛
在政治学中,两国之间的军备竞赛可以用囚徒困境来描述.两国都可以声称有两种选择：增加军备（背叛）、或是达成削减武器协议（合作）.两国都无法肯定对方会遵守协议,因此两国最终会倾向增加军备.似乎自相矛盾的是,虽然增加军备会是两国的“理性”行为,但结果却显得“非理性”（例如会对经济造成都有损坏等）.这可视作遏制理论的推论,就是以强大的军事力量来遏制对方的进攻,以达到和平.
[编辑] 经济学例子：关税战
两个国家,在关税上可以有以两个选择:
提高关税,以保护自己的商品.（背叛）
与对方达成关税协定,降低关税以利各自商品流通.（合作）
当一国因某些因素不遵守关税协定,而独自提高关税（背叛）时,另一国也会作出同样反应（亦背叛）,这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害（共同背叛的结果）.然后二国又重新达成关税协定.（重复博弈的结果是将发现共同合作利益最大.）
[编辑] 商业例子：广告战
商业活动中亦会出现各种囚徒困境例子.以广告竞争为例.
两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入.但若二者同时期发出质量类似的广告,收入增加很少但成本增加.但若不提高广告质量,生意又会被对方夺走.
此二公司可以有二选择：
互相达成协议,减少广告的开支.（合作）
增加广告开支,设法提升广告的质量,压倒对方.（背叛）
若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚徒困境.在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中.
[编辑] 自行车赛例子
自行车赛事的比赛策略也是一种博弈,而其结果可用囚徒困境的研究成果解释.例如每年都举办的环法自行车赛中有以下情况：选手们在到终点前的路程常以大队伍（英文:Peloton）方式前进,他们采取这策略是为了令自己不至于太落后,又出力适中.而最前方的选手在迎风时是最费力的,所以选择在前方是最差的策略.通常会发生这样的情况,大家起先都不愿意向前（共同背叛）,这使得全体速度很慢,而后通常会有二或多位选手骑到前面,然后一段时间内互相交换最前方位置,以分担风的阻力（共同合作）,使得全体的速度有所提升,而这时如果前方的其中一人试图一直保持前方位置（背叛）,其他选手以及大队伍就会赶上（共同背叛）.而通常的情况是,在最前面次数最多的选手（合作）通常会到最后被落后的选手赶上（背叛）,因为后面的选手骑在前面选手的冲流之中,比较不费力.
[编辑] 与囚徒困境相关的各事件
[编辑] 异想
威廉·庞德斯通（William Poundstone）在他的着作中,以一新西兰的例子来说明囚徒困境.在新西兰,报亭既无管理员也不上锁,买报纸的人自行放下钱后拿走报纸.当然某些人可能取走报纸却不付钱（背叛）,但由于大家认识到如果每个人都偷窃报纸（共同背叛）会造成以后不方便的有害结果,这种情形很少发生.这例子特别之处是新西兰人并没有被任何其他因素影响而能脱离囚徒困境.并没有任何人特别去注意报亭,人们守规则是为了避免共同背叛带来的恶果.这种避免囚徒困境的大家共同的推理或想法被称为“异想（magical thinking）”.[3]
[编辑] “认罪减刑”不可行
囚徒困境的结论是许多国家中认罪减刑（英文：plea bargain）被禁止的原因之一.囚徒困境带来的结论是：如果有二个罪犯,其中一人犯罪而另外一人是无辜的,犯罪者会为了减刑坦白一切甚至冤枉清白者（单独背叛）.最糟糕的情况是,如果他们二人都被判入狱,坦白的犯罪者刑期少,坚持无罪的冤枉者刑期反而更多.
[编辑] 公用品悲剧
现实的博弈参与者不只一方,会有多方参与的囚徒困境.加勒特·詹姆斯·哈丁（Garrett James Hardin）的公用品悲剧就是一例：“公用品悲剧是指凡是属于最多数人的公共财产常常是最少受人照顾的事物”,例如渔业,公海中的鱼是属于公共的,而在本身不滥捕其他人也滥捕的思想下,渔民会没有节制的大捞特捞,结果海洋生态破坏,渔民的生计也受影响（共同背叛的结果）.但是,多方囚徒困境的提法有待商榷,因为其总是可以被分解为一组组经典的二方囚徒困境.就是说只有二方的囚徒困境,没有多方的.所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉.
[编辑] 重复的囚徒困境
罗伯特·阿克塞尔罗德在其着作《合作的进化》中,探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”（IPD）.在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗.阿克塞尔罗德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争.参赛的程序的差异广泛地存在于这些方面：算法的复杂性、最初的对抗、宽恕的能力等等.
阿克塞尔罗德发现,当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他”策略更多地被采用.他用这个博弈来说明,通过自然选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来.
最佳确定性策略被认为是“以牙还牙”,这是阿纳托尔·拉波波特（Anatol Rapoport）开发并运用到锦标赛中的方法.它是所有参赛程序中最简单的,只包含了四行BASIC语言,并且赢得了比赛.这个策略只不过是在重复博弈的开头合作,然后,采取你的对手前一回合的策略.更好些的策略是“宽恕地以牙还牙”.当你的对手背叛,在下一回合中你无论如何要以小概率（大约是1%-5%）时而合作一下.这是考虑到偶尔要从循环背叛的受骗中复原.当错误传达被引入博弈时,“宽恕地以牙还牙”是最佳的.这意味着有时你的动作被错误地传达给你的对手：你合作但是你的对手听说你背叛了.
通过分析高分策略,阿克塞尔罗德指定了策略获得成功的几个必要条件.
友善
最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛.几乎所有的高分策略都是友善的.因此,完全自私的策略仅仅出于自私的原因,也永远不会首先打击其对手.
报复
但是,阿克斯洛德主张,成功的策略必须不是一个盲目乐观者.要始终报复.一个非报复策略的例子是始终合作.这是一个非常糟糕的选择,因为“下流”策略将残酷地剥削这样的傻瓜.
宽恕
成功策略的另一个品质是必须要宽恕.虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作.这停止了报复和反报复的长期进行,最大化了得分点数.
不嫉妒
最后一个品质是不嫉妒,就是说不去争取得到高于对手的分数（对于“友善”的策略来说这也是不可能的,也就是说“友善”的策略永远无法得到高于对手的分数）.
因此,阿克塞尔罗德得到一种给人以乌托邦印象的结论,认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒.阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一,是友善的家伙能先完成交易.
重新考虑经典的囚徒困境一节中给定的军备竞赛模型：结论是,只是理性策略增进了军事力量,似乎两个国家都宁可花费其GDP在枪炮而不是黄油上.有趣的是,企图说明对抗国家实际上以这种方式（在“重复囚徒困境假定”下的不同时期,军费支出在“高”和“低”之间反复）竞赛的尝试,却经常表明假定的军备竞赛并没有如预想的那样出现.（例如希腊人和土耳其人的军费支出,看来并不像遵循“以牙还牙”的重复囚徒困境式的军备竞赛,却更可能是被其国内的政策所驱使.）这可能是一次性博弈和重复性博弈中的理性行为不同的例子.
对一次性囚徒困境博弈来说,最佳（点数最大化的）策略是简单地背叛；正如前面解释的,无论对手的行动可能是什么,这都是真实的.但是,在重复的囚徒困境博弈中,最佳策略依赖于可能的对手的策略,和他们怎样对背叛和合作作出反应.例如,考虑这样一个人群,那里每个人每次都背叛,除了一个人是遵循以牙还牙策略.这个人处于一种轻微的不利地位,因为第一回合的损失.在这样的人群中,对这个人来说最佳策略就是每次都背叛.在一个有一定的百分比的总背叛者而剩下的则是以牙还牙者的人群中,对个人来说的最佳策略依赖于这个百分比和博弈的长度.
一般有两种方法得到最佳策略：
贝叶斯纳什均衡：如果对抗策略的统计分布能被确定（例如,50％以牙还牙,50％一直合作）,就能从数学上获得最佳的相对策略[4].
已经有了人群的蒙特卡罗模拟,在这里低分个人消失了,高分个人一再被生产出来（一种获得最佳策略的天才算法）.决赛人群中的算法合成通常依赖于初赛人群中的算法合成.
尽管以牙还牙始终被认为是最可靠的基本策略,但是在重复囚徒困境的20周年纪念赛中,来英国南安普敦大学的一个小组（由尼古拉斯·詹宁斯（Nicholas Jennings）[1]领导,包括了拉蒂普·达什（Rajdeep Dash）、萨瓦帕里·拉姆琼（Sarvapali Ramchurn）、亚历克斯·罗杰斯（Alex Rogers）斯和皮鲁克里士南·维特林根（Perukrishnen Vytelingum））介绍了一个新的策略,这个策略证明了它比以牙还牙更成功.这个策略依赖于程序之间的合作,为单一程序中获得了最高的点数.南安普敦大学提交了60个程序参与竞赛,这些程序的开头被设计成通过一组5到10个的动作去彼此识别.一旦这些识别被作出,一个程序将总是合作,其他程序则总是背叛,保证背叛者得到最大的点数.如果程序识别出它在操作一个非南安普敦参与者,这程序将持续地背叛,企图去最小化竞争程序的得分.结果[5],这个策略以获得前3位结束了竞赛,也得到了大量接近底部的位置.虽然这个策略显着地证明了比以牙还牙有效,但是这是因为利用了下述事实：在这个特殊的竞赛中,多重通道是被允许的.在一方只能控制单一参与者的竞赛中,以牙还牙确实是更好的策略.
如果重复囚徒困境将被精确地重复N次,已知N是一个常数,那么会产生另一个有趣的事实.纳什均衡就是每次都背叛.这很容易用归纳法证明.你也可以在最后的回合背叛,既然你的对手将没有机会惩罚你.因此,你们都将在最后的回合背叛.这时,你可以在倒数第二回合中背叛,既然最后一回无论你做什么,你的对手都将背叛.依此类推.为了合作以保持请求,这时未来必须对两个参与者来说是不确定的.一个解决方案是让博弈总次数N变成随机的.对未来的预期必须是无法确定的长度.
另一个单独的案例是“永不停止”的囚徒困境.这个博弈被重复很多次,而且你的分数是一个平均数（当然是用计算机计算的）.
囚徒困境博弈是某些人类合作和信任理论的基础.假定囚徒困境能够模拟需要信任的两人之间的交流,群体的合作行为可以用有多个参与者的、重复博弈的变体来模拟.这从而引起了许许多多学者经久不衰的兴趣.1975年,格罗夫曼（Grofman）和普尔（Pool）估计,致力于这方面研究的学术文章,数量超过2000篇.
[编辑] 学习心理学和博弈论
当博弈参与者能学会估计其他参与者背叛的可能性,他们自身的行为就为他们关于其他人的经验所影响.简单的统计显示,总体上,缺乏经验的参与者与其他参与者的互动,或者是典型的好,或者是典型的坏.如果他们在这些经验的基础上行动,（通过更多的背叛或合作,否则）他们可能在未来的交易中受损.随着经验逐渐丰富,他们获得了对背叛可能性的更真实的印象,变得更成功地参与博弈.不成熟的参与者经历的早期交易对他们未来参与的影响,可能比这些交易对成熟的参与者的影响要大得多.这个原理部分地解释了,为什么年轻人的成长经验这么具有影响力,以及为什么他们特别容易被欺负,有时他们本身最后也成为欺凌弱小者.
群体中背叛的可能性,可以被合作的经验所削弱[6],因为先前的博弈建立了信任.因此自我牺牲行为可以,例如,加强团体的道德品质.如果团体很小,积极行为更可能以互相肯定的方式——鼓励这个团体中的个人继续合作——得到反馈.这与相似的困境有关：鼓励那些你将援助的人,从可能使他们处于危险的境地的行为中得到满足.这类方法主要在互惠利他主义、群选择、血缘选择和道德哲学的研究中涉及.
[编辑] 相关的博弈
[编辑] 封闭袋子交易
霍夫施塔特2曾提出像囚徒困境的问题.他提出“密封袋子交易”,他认为以这简单博弈题,有助人们理解此论题.
“密封袋子交易”:甲、乙两人面对面交换密封的袋子,双方的共识是甲的袋放钱、乙的放商品.双方各自可以诚实地把东西放到袋子,然后交换；又或者交空袋子给对方,选择背叛.
在这场博弈中,由于背叛可获得巨大利益,必然有多人选择背叛.这意味着理性的商人不会进行这种交易,因而“封闭袋子交易”将由于逆向选择而失去市场.
[编辑] 是敌是友?
“是敌是友?”是一个竞赛表演节目,从2002年到2005年在美国竞赛表演广播网（Game Show Network）放映.这是一个用真人进行的囚徒困境博弈例子,不过情景是人造的.这个竞赛表演有三对人参与竞争.当每对人被淘汰时,他们做一个囚徒困境博弈,决定如何分他们的奖品.如果他们都合作（“朋友”）,他们的奖品就被平分.如果一个合作而另一个背叛（“敌人”）,背叛者得到所有的奖品,合作者什么都得不到.如果双方互相背叛,那么两人都一无所获.注意,这个支付矩阵与前述标准的支付矩阵不同,因为发生“互相背叛”的情形和“我合作而对手背叛”的情形,其损失是一样的.和标准囚徒困境的稳定均衡相比,“互相背叛”是不稳固的均衡（weak equilibrium）.如果你知道你的对手将成为“敌人”,这时你的选择无法影响你的奖品.在某种意义上,“是敌是友”拥有一个介于“囚徒困境”和“小鸡”之间的支付模型.
这个支付矩阵是：
如果参与者都合作,每人得到 +1.
如果都背叛,每人得到 0.
如果甲合作而乙背叛,甲得到0而乙得到 +2.
是敌是友对于想对囚徒困境作现实分析的人将是有用的.注意到,参与者只能进行一次,所以所有涉及重复进行博弈的观点都不适用,“以牙还牙”策略也无法发展出来.
在是敌是友中,每个参赛者被允许做一个声明,使另一半友在双方秘密决定合作或背叛之前,确信他的友善.可能“打破制度”的方法将是一个参与者告诉他的对手：“我会选择做敌人.如果你相信我后来会和你分奖品的话,就选择做朋友.否则,如果你选择做敌人,我们都会空手而回.”一个更贪婪的版本将是：“我将选择做敌人.我会给你百分之X,剩下的百分之（100-X）归我.所以,要或不要,要么我们都得到一些,要么我们都一无所获.”（在最后通牒博弈中时.）现在,奸计就是去尽量减少那个百分之X,并保持另一个竞争者仍然选择做朋友.基本上,这个参与者必须知道这个界限,在这里他的对手从看到他一无所获中得到的效用,要超过他从肯定能赢得的金钱中得到的效用,如果他顺利的话.
在竞赛中这个方法从未被试验过；可能是因为裁判们不会允许,而且即使允许,不平等厌恶也会由于这个规则的使用而导致较低的期望收益.（最后通牒博弈中尝试了这个方法,结果导致对高而不平等的出价的拒绝——在一些案例中,相当于两周的工资优先于两个参与者一无所获被决绝.）
http://ent.sina.com.cn/m/2002-03-21/76881.html

‘肆’ 【典毒】纳什均衡与博弈论

今天开始通过文字的方式来分享我的读书笔记，第一本书是《纳什均衡与博弈论》，当初知道这本书是因为人工智能，想要了解就要去探索吗，然后慢慢发现，要想真的搞定人工智能，那数学是必须超级棒才行，于是搜索关于算法和大数据的资料，结果无意间发现了这本书，感觉是从非常宏观角度来阐释数学，心理学，经济学，计算机科学与技术等很多方面的发展脉络。

不知道大家有没有看过一部电影叫《美丽心灵》，我一开始看到这个名字的第一感觉就是，这一定又是一部企图震撼宇宙的爱情电影，还好我猜错了，这是一部根据现实取材的影视作品，演绎的就是纳什均衡学说的创始人约翰·纳什的故事。具体就不多阐述了，总之，大家就是大家，只能说天才和疯子真的是一线之间的事情。对纳什这个人物感兴趣的可以去收看这部片子。那么，这本《纳什均衡与博弈论》倒是并没有集中围绕纳什这个人，而是从希腊古籍自然法典来开始，接着是亚当斯密的《国富论》，冯·诺伊曼的博弈论，纳什是继承了前人的思想，将博弈论发扬光大，让博弈论能够被广泛地运用于各类学科，诸如心理学，经济学，社会学，量子科学等。这本书让我第一次深刻体会到数学带给世界的深刻影响。

我们先来了解亚当·斯密，可能很多人不太知道这个人，但我说一本书，也许你就知道了，《国富论》，他并非一个博弈论学家，或者不能被定义为一个博弈论者，但亚当斯密的很多预见，至今在自由市场经济下仍旧成立。他的理论说明了博弈、经济学、生物学、物理学和社会学之间的某种联系，这也是我们所要呈现的本书的全部内容。可以说，亚当斯密是经济学的鼻祖级人物了，但大部分学说都是建立在人对事物的观察总结上，貌似也很对，但终归不是太精确。

接下来，又一位大神出场，大名鼎鼎的冯·诺依曼，博弈在人类历史长河中一直存在，而博弈论由冯诺依曼在20世纪才真正创立。我了解冯诺伊曼是由学习电脑而来的，冯·诺依曼是布达佩斯大学数学博士，在现代计算机、博弈论、核武器和生化武器等领域内的科学全才之一，被后人称为“现代计算机之父”、“ 博弈论之父”。博弈论的创立使得经济学有了严谨的数学工具，“口说无凭”的经济学家们，终于可以在黑板上列出一串串数学公式来显示经济学是多么牛叉的学科。

1948年，年仅20岁的纳什以研究生身份进入普林斯顿大学，纳什以他的“美丽心灵”掀起了一场智力革命，并推动了博弈论从一种时尚转变为整个社会科学的基础。在此不久之前，冯诺依曼和摩根斯特恩以《博弈论与经济行为》开拓了新的数学领域。而纳什成功地引导博弈论走向数学均衡的命运。在他经历了各种精神上的折磨之后，命运给了他回报，在其获得诺贝尔数学奖之后，纳什的数学方法使得博弈论渗透到了人类学，神经科学，甚至是物理学之中。

佛洛依德也来凑热闹了，前段时间，美国一位黑人惨死，也叫佛洛依德，不过同名不同命啊！佛洛依德是着名的心理学家，或者是精神学家，佛洛依德对大脑的研究近乎痴迷，可鉴于当时的技术有限，想通过物理的方式破解大脑这个“黑盒子”的秘密，真的是太艰难了，佛洛依德的时代，MRI（核磁共振）技术还没影子。所以，他抛弃了神经科学，转而开始研究梦对人们心理的影响。不过，纳什的数学工具为研究神经科学提供了有力的支撑，诞生出神经经济学这么交叉学科，佛洛依德要是活在现在，能够借助数学和MRI来研究大脑，那他肯定要高兴疯了。

好了，至于博弈论的发展，还涉及到了哪些人和哪些学科，详情还是去看《纳什均衡与博弈论》，我想，当下量子科学和人工智能的突飞猛进，正是在这些牛人研究基础上来的，想想都不容易啊

‘伍’ 【博弈论】关于下面支付矩阵的混合策略纳什均衡 2,1 3,-1 对手的策略

在计算混合策略时，自己选上的概率p应当使得对手选择两种策略所得的期望收益相同。你不能用自己的支付矩阵来计算对方的期望收益，应当写出对方的支付矩阵，再找p。

‘陆’ “懦夫游戏”（chicken game）是什么意思

“懦夫游戏(chicken game)”，常常用于刻画一种骑虎难下的博弈局势。

模型中，两名车手向对方驱车而行，谁最先让开的一方被耻笑为“懦夫”（chicken），让另一方胜出，因此这博弈模型在英文中称为The Game of Chicken，但如果两人拒绝收掣，任由两车相撞，最终谁得无法得益。这套模型在政治、经济上经常使用。

如果一方坚持要进行博弈，那么另一方难以退出博弈(退出博弈也会被视为“懦夫”)。局面就变成了骑虎难下。而此时，冒险选择向前而获胜的一方，总是将自己的幸福建立在了对方的痛苦之上。

假定博弈参与的一方是鲁莽、不顾后果名声的人，另一方是足够理性的人，那么鲁莽者极可能是博弈的胜出者。如果这种懦夫博弈进行多次，则冒险选择向前而成功的参与人就更有信心在将来采取这种策略，他很可能会树立起一种粗暴的形象使得对手在未来的对局中害怕而获得好处。

(6)纳什均衡算法扩展阅读：

试想有两人狭路相逢，每人有两个行动选择：一是退下来，一是进攻。如果一方退下来，而对方没有退下来，对方获得胜利，这人就很丢面子；如果对方也退下来，双方则打个平手；如果自己没退下来，而对方退下来，自己则胜利，对方则失败；如果两人都前进，那么则两败俱伤。

因此，对每个人来说，最好的结果是，对方退下来，而自己不退。

如果你能判定对方一定会选择不转向，那你就一定要转向。所以，只要你能想办法让对方认为你是肯定不会转向的，那你就可以迫使对方选择转向。这时候，发出什么样的信号，让对方相信你不会转向，就成了你最需要考虑的问题。

这里有一个方法，那就是放弃自己的选择权。比如，在这个游戏中，你可以用一块布蒙住自己的眼睛。这实际上是告诉对手，你放弃“转向”这一选择。而对手知道你已经没有能力选择转向了，那么他为了不受重伤，就只能选择“转向”了。

‘柒’ 什么是纳什均衡啊，最好简单易懂点，百科ctrl V就算了

有没有看过经典的囚徒困境案例，能理解它然后扩大范围去理解

‘捌’ 什么是纳什均衡

纳什均衡，Nash equilibrium ,又称为非合作博弈均衡，是博弈论的一个重要术语，以约翰·纳什命名。

约翰·纳什1948年作为年轻数学博士生进入普林斯顿大学。其研究成果见于题为《非合作博弈》（1950）的博士论文。该博士论文导致了《n人博弈中的均衡点》（1950）和题为《非合作博弈》（1951）两篇论文的发表。纳什在上述论文中，介绍了合作博弈与非合作博弈的区别。他对非合作博弈的最重要贡献是阐明了包含任意人数局中人和任意偏好的一种通用解概念，也就是不限于两人零和博弈。该解概念后来被称为纳什均衡。
纳什的主要学术贡献体现在1950年和1951年的两篇论文，1950年他才把自己的研究成果写成题为“非合作博弈”的文章刊登在美国全国科学院每月公报上，立即引起轰动。说起来这全靠师兄戴维·盖尔之功，就在遭到冯·诺依曼贬低，嘲笑几天之后，他遇到盖尔，像说梦话似的告诉他自己已经将冯·诺依曼的“最小最大原理找到了普遍化的方法和均衡点。纳什这个初出茅庐的小子，根本不知道竞争的险恶，从没想到学术欺骗的后果。结果还是戴维·盖尔充当了他的“经纪人”，起草致科学院的短信，系主任列夫谢茨则利用方便的人脉关系亲自将文稿递交给科学院。纳什写的文章不多，他辩解说：少了才是精品。中国国内提一个教授，要求在“核心的刊物”上发表多少篇文章。按照这个标准可能纳什还不一定够资格。
1996年诺贝尔经济学奖得主莫尔里斯当牛津大学艾奇沃思经济学讲座教授时也没有发表过什么文章，特殊的人才，必须有特殊的选拔办法。
Nash平衡是指博弈中这样的局面，对于每个参与者来说，只要其他人不改变策略，他就无法改善自己的状况。Nash在证明了在每个参与者都只有有限种策略选择、并允许混合策略的前提下，Nash平衡一定存在。以两家公司的价格大战为例，Nash平衡意味着两败俱伤的可能：在对方不改变价格的条件下，既不能提价，否则会进一步丧失市场；也不能降价，因为会出现赔本甩卖。于是两家公司可以改变原先的利益格局，通过谈判寻求新的利益评估分摊方案，也就是Nash平衡。类似的推理当然也可以用到选举，群体之间的利益冲突，潜在战争爆发前的僵局，议会中的法案争执等。
假设有n个局中人参与博弈，给定其他人策略的条件下，每个局中人选择自己的纳什均衡
最优策略（个人最优策略可能依赖于也可能不依赖于他人的战略），从而使自己利益最大化。所有局中人策略构成一个策略组合（Strategy Profile）。纳什均衡指的是这样一种战略组合，这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下，没有人有足够理由打破这种均衡。纳什均衡，从实质上说，是一种非合作博弈状态。
纳什均衡达成时，并不意味着博弈双方都处于不动的状态，在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的。纳什均衡也不意味着博弈双方达到了一个整体的最优状态，以下的囚徒困境就是一个例子。

导航:首页 > 源码编译 > 纳什均衡算法

纳什均衡算法

与纳什均衡算法相关的资料