A. 納什均衡點,應怎樣理解 請舉出具體的例子,
納什平衡,又稱為非合作賽局平衡,是博弈論的一個重要概念,以約翰·納什命名.
如果某情況下無一參與者可以獨自行動而增加收益,則此策略組合被稱為納什均衡點
經典的例子就是囚徒困境,囚徒困境是一個非零和博弈. 大意是:一個案子的兩個嫌疑犯被分開審訊,警官分別告訴兩個囚犯,如果你招供,而對方不招供,則你將被立即釋放,而對方將被判刑十年;如果兩人均招供,將均被判刑兩年.如果兩人均不招供,將最有利,只被判刑半年. 於是,兩人同時陷入招供還是不招供的兩難處境. 但兩人無法溝通,於是從各自的利益角度出發,都依據各自的理性而選擇了招供, 這種情況就稱為納氏均衡點. 這時,個體的理性利益選擇是與整體的理性利益選擇不一致的.
學術爭議和批評
第一,納什(Nash)的關於非合作(non-cooperative)博弈論的平衡不動點解(equilibrium/fixpoint)學術證明是非構造性的(non-constructive),就是說納什用角谷靜夫不動點定理(Kakutani fixed point theorem) 證明了平衡不動點解是存在的,但卻不能指出以什麼構造演算法如何去達到這個平衡不動點解.這種非構造性的發現對現實生活里的博弈的作用是有限的,即使知道平衡不動點解存在,在很多情況下卻找不到,因此仍不能解決問題.[來源請求]在數學意義上,納什並沒有超越角谷靜夫不動點定理.
經過《美麗心靈》的Sylvia Nasar(書作者)和Ron Howard(電影作者)這樣的主流媒體的介入,角谷靜夫(Kakutani)在這些人的作品裡被完全忽略.有人認為,「納什平衡」(Nash equilibrium)的更合適的名字應該叫作「角谷靜夫—納什博弈論不動點」(Kakutani-Nash game-theoretic fixed point)或「角谷靜夫—納什平衡」(Kakutani-Nash equilibrium),沒有角谷靜夫不動點定理,納什的證明沒有多大學術意義.《美麗心靈》完全忽視角谷靜夫之關鍵貢獻的作法有待商榷.
第二,納什的非合作(non-cooperative)博弈論模型僅僅是突破了博弈論中的一個局限.一個更大的局限是,博弈論面對的往往是由幾十億節點的龐大對象構成的社會、經濟等復雜行為,但馮·諾伊曼(Von Neumann)和納什的研究是針對兩三個節點的小規模博弈論(有人稱之為tiny-scale toy case).[來源請求]
這個假設的不完善處,可能比假設大家都是合作的(cooperative)更嚴重.因為在經濟學里,一個龐大社會里的人極不可能全部都是合作的,非合作的情況通常在龐大對象的情形中更普遍,而在兩三個節點的小規模經濟中倒反而影響較小.既然改了合作前提為非合作前提,卻仍然停留在兩三個節點的小規模博弈論中,這是一個不可忽視的缺陷.最近香港城市大學和北京清華大學的學者群鄧小鐵、姚期智在基於復雜度理論的大規模博弈論上有所進展.
MIT的一位計算機科學博士生的博士論文(pdf http://people.csail.mit.e/costis/thesis.pdf )——獲得2008年度美國計算機協會學位論文獎——認為經濟學家的推測是錯誤的,找到納什均衡點是幾乎不可能的事. 目前擔任MIT電機工程和計算機科學系助理教授的Constantinos Daskalakis與 UC伯克利的Christos Papadimitriou、英國利物浦大學的Paul Goldberg合作,證明對某些博弈來說,窮全世界所有計算機之力,在整個宇宙壽命的時間內也計算不出納什均衡點.Daskalakis相信,計算機找不到,人類也不可能找到.納什均衡屬於NP問題,Daskalakis證明它屬於NP問題的一個子集,不是通常認為的NP-完全問題,而是PPAD-完全問題.這項研究成果被一些計算機科學家認為是十年來博弈論領域的最大進展.
不過在同一篇論文里,Daskalakis也指出,在參與者匿名的情況下,則僅需多項式時間即可逼近納什均衡.
現實的例子
上述例子可能顯得不甚自然,但現實中,無論是人類社會或大自然都可以找到類似囚徒困境的例子,將結果劃成同樣的支付矩陣.社會科學中的經濟學、政治學和社會學,以及自然科學的動物行動學、進化生物學等學科,都可以用囚徒困境分析,模擬生物面對無止境的囚徒困境博弈.囚徒困境可以廣為使用,說明這種博弈的重要性.以下為各界例子:
[編輯] 政治學例子:軍備競賽
在政治學中,兩國之間的軍備競賽可以用囚徒困境來描述.兩國都可以聲稱有兩種選擇:增加軍備(背叛)、或是達成削減武器協議(合作).兩國都無法肯定對方會遵守協議,因此兩國最終會傾向增加軍備.似乎自相矛盾的是,雖然增加軍備會是兩國的「理性」行為,但結果卻顯得「非理性」(例如會對經濟造成都有損壞等).這可視作遏制理論的推論,就是以強大的軍事力量來遏制對方的進攻,以達到和平.
[編輯] 經濟學例子:關稅戰
兩個國家,在關稅上可以有以兩個選擇:
提高關稅,以保護自己的商品.(背叛)
與對方達成關稅協定,降低關稅以利各自商品流通.(合作)
當一國因某些因素不遵守關稅協定,而獨自提高關稅(背叛)時,另一國也會作出同樣反應(亦背叛),這就引發了關稅戰,兩國的商品失去了對方的市場,對本身經濟也造成損害(共同背叛的結果).然後二國又重新達成關稅協定.(重復博弈的結果是將發現共同合作利益最大.)
[編輯] 商業例子:廣告戰
商業活動中亦會出現各種囚徒困境例子.以廣告競爭為例.
兩個公司互相競爭,二公司的廣告互相影響,即一公司的廣告較被顧客接受則會奪取對方的部分收入.但若二者同時期發出質量類似的廣告,收入增加很少但成本增加.但若不提高廣告質量,生意又會被對方奪走.
此二公司可以有二選擇:
互相達成協議,減少廣告的開支.(合作)
增加廣告開支,設法提升廣告的質量,壓倒對方.(背叛)
若二公司不信任對方,無法合作,背叛成為支配性策略時,二公司將陷入廣告戰,而廣告成本的增加損害了二公司的收益,這就是陷入囚徒困境.在現實中,要二互相競爭的公司達成合作協議是較為困難的,多數都會陷入囚徒困境中.
[編輯] 自行車賽例子
自行車賽事的比賽策略也是一種博弈,而其結果可用囚徒困境的研究成果解釋.例如每年都舉辦的環法自行車賽中有以下情況:選手們在到終點前的路程常以大隊伍(英文:Peloton)方式前進,他們採取這策略是為了令自己不至於太落後,又出力適中.而最前方的選手在迎風時是最費力的,所以選擇在前方是最差的策略.通常會發生這樣的情況,大家起先都不願意向前(共同背叛),這使得全體速度很慢,而後通常會有二或多位選手騎到前面,然後一段時間內互相交換最前方位置,以分擔風的阻力(共同合作),使得全體的速度有所提升,而這時如果前方的其中一人試圖一直保持前方位置(背叛),其他選手以及大隊伍就會趕上(共同背叛).而通常的情況是,在最前面次數最多的選手(合作)通常會到最後被落後的選手趕上(背叛),因為後面的選手騎在前面選手的沖流之中,比較不費力.
[編輯] 與囚徒困境相關的各事件
[編輯] 異想
威廉·龐德斯通(William Poundstone)在他的著作中,以一紐西蘭的例子來說明囚徒困境.在紐西蘭,報亭既無管理員也不上鎖,買報紙的人自行放下錢後拿走報紙.當然某些人可能取走報紙卻不付錢(背叛),但由於大家認識到如果每個人都偷竊報紙(共同背叛)會造成以後不方便的有害結果,這種情形很少發生.這例子特別之處是紐西蘭人並沒有被任何其他因素影響而能脫離囚徒困境.並沒有任何人特別去注意報亭,人們守規則是為了避免共同背叛帶來的惡果.這種避免囚徒困境的大家共同的推理或想法被稱為「異想(magical thinking)」.[3]
[編輯] 「認罪減刑」不可行
囚徒困境的結論是許多國家中認罪減刑(英文:plea bargain)被禁止的原因之一.囚徒困境帶來的結論是:如果有二個罪犯,其中一人犯罪而另外一人是無辜的,犯罪者會為了減刑坦白一切甚至冤枉清白者(單獨背叛).最糟糕的情況是,如果他們二人都被判入獄,坦白的犯罪者刑期少,堅持無罪的冤枉者刑期反而更多.
[編輯] 公用品悲劇
現實的博弈參與者不只一方,會有多方參與的囚徒困境.加勒特·詹姆斯·哈丁(Garrett James Hardin)的公用品悲劇就是一例:「公用品悲劇是指凡是屬於最多數人的公共財產常常是最少受人照顧的事物」,例如漁業,公海中的魚是屬於公共的,而在本身不濫捕其他人也濫捕的思想下,漁民會沒有節制的大撈特撈,結果海洋生態破壞,漁民的生計也受影響(共同背叛的結果).但是,多方囚徒困境的提法有待商榷,因為其總是可以被分解為一組組經典的二方囚徒困境.就是說只有二方的囚徒困境,沒有多方的.所謂多方的囚徒困境只是由多個二方囚徒困境混雜在一起而形成的錯覺.
[編輯] 重復的囚徒困境
羅伯特·阿克塞爾羅德在其著作《合作的進化》中,探索了經典囚徒困境情景的一個擴展,並把它稱作「重復的囚徒困境」(IPD).在這個博弈中,參與者必須反復地選擇他們彼此相關的策略,並且記住他們以前的對抗.阿克塞爾羅德邀請全世界的學術同行來設計計算機策略,並在一個重復囚徒困境競賽中互相競爭.參賽的程序的差異廣泛地存在於這些方面:演算法的復雜性、最初的對抗、寬恕的能力等等.
阿克塞爾羅德發現,當這些對抗被每個選擇不同策略的參與者一再重復了很長時間之後,從利己的角度來判斷,最終「貪婪」策略趨向於減少,而比較「利他」策略更多地被採用.他用這個博弈來說明,通過自然選擇,一種利他行為的機制可能從最初純粹的自私機制進化而來.
最佳確定性策略被認為是「以牙還牙」,這是阿納托爾·拉波波特(Anatol Rapoport)開發並運用到錦標賽中的方法.它是所有參賽程序中最簡單的,只包含了四行BASIC語言,並且贏得了比賽.這個策略只不過是在重復博弈的開頭合作,然後,採取你的對手前一回合的策略.更好些的策略是「寬恕地以牙還牙」.當你的對手背叛,在下一回合中你無論如何要以小概率(大約是1%-5%)時而合作一下.這是考慮到偶爾要從循環背叛的受騙中復原.當錯誤傳達被引入博弈時,「寬恕地以牙還牙」是最佳的.這意味著有時你的動作被錯誤地傳達給你的對手:你合作但是你的對手聽說你背叛了.
通過分析高分策略,阿克塞爾羅德指定了策略獲得成功的幾個必要條件.
友善
最重要的條件是策略必須「友善」,這就是說,不要在對手背叛之前先背叛.幾乎所有的高分策略都是友善的.因此,完全自私的策略僅僅出於自私的原因,也永遠不會首先打擊其對手.
報復
但是,阿克斯洛德主張,成功的策略必須不是一個盲目樂觀者.要始終報復.一個非報復策略的例子是始終合作.這是一個非常糟糕的選擇,因為「下流」策略將殘酷地剝削這樣的傻瓜.
寬恕
成功策略的另一個品質是必須要寬恕.雖然它們不報復,但是如果對手不繼續背叛,它們會一再退卻到合作.這停止了報復和反報復的長期進行,最大化了得分點數.
不嫉妒
最後一個品質是不嫉妒,就是說不去爭取得到高於對手的分數(對於「友善」的策略來說這也是不可能的,也就是說「友善」的策略永遠無法得到高於對手的分數).
因此,阿克塞爾羅德得到一種給人以烏托邦印象的結論,認為自私的個人為了其自私的利益會趨向友善、寬恕和不嫉妒.阿克塞爾羅德關於重復囚徒困境的研究的重要結論之一,是友善的傢伙能先完成交易.
重新考慮經典的囚徒困境一節中給定的軍備競賽模型:結論是,只是理性策略增進了軍事力量,似乎兩個國家都寧可花費其GDP在槍炮而不是黃油上.有趣的是,企圖說明對抗國家實際上以這種方式(在「重復囚徒困境假定」下的不同時期,軍費支出在「高」和「低」之間反復)競賽的嘗試,卻經常表明假定的軍備競賽並沒有如預想的那樣出現.(例如希臘人和土耳其人的軍費支出,看來並不像遵循「以牙還牙」的重復囚徒困境式的軍備競賽,卻更可能是被其國內的政策所驅使.)這可能是一次性博弈和重復性博弈中的理性行為不同的例子.
對一次性囚徒困境博弈來說,最佳(點數最大化的)策略是簡單地背叛;正如前面解釋的,無論對手的行動可能是什麼,這都是真實的.但是,在重復的囚徒困境博弈中,最佳策略依賴於可能的對手的策略,和他們怎樣對背叛和合作作出反應.例如,考慮這樣一個人群,那裡每個人每次都背叛,除了一個人是遵循以牙還牙策略.這個人處於一種輕微的不利地位,因為第一回合的損失.在這樣的人群中,對這個人來說最佳策略就是每次都背叛.在一個有一定的百分比的總背叛者而剩下的則是以牙還牙者的人群中,對個人來說的最佳策略依賴於這個百分比和博弈的長度.
一般有兩種方法得到最佳策略:
貝葉斯納什均衡:如果對抗策略的統計分布能被確定(例如,50%以牙還牙,50%一直合作),就能從數學上獲得最佳的相對策略[4].
已經有了人群的蒙特卡羅模擬,在這里低分個人消失了,高分個人一再被生產出來(一種獲得最佳策略的天才演算法).決賽人群中的演算法合成通常依賴於初賽人群中的演算法合成.
盡管以牙還牙始終被認為是最可靠的基本策略,但是在重復囚徒困境的20周年紀念賽中,來英國南安普敦大學的一個小組(由尼古拉斯·詹寧斯(Nicholas Jennings)[1]領導,包括了拉蒂普·達什(Rajdeep Dash)、薩瓦帕里·拉姆瓊(Sarvapali Ramchurn)、亞歷克斯·羅傑斯(Alex Rogers)斯和皮魯克里士南·維特林根(Perukrishnen Vytelingum))介紹了一個新的策略,這個策略證明了它比以牙還牙更成功.這個策略依賴於程序之間的合作,為單一程序中獲得了最高的點數.南安普敦大學提交了60個程序參與競賽,這些程序的開頭被設計成通過一組5到10個的動作去彼此識別.一旦這些識別被作出,一個程序將總是合作,其他程序則總是背叛,保證背叛者得到最大的點數.如果程序識別出它在操作一個非南安普敦參與者,這程序將持續地背叛,企圖去最小化競爭程序的得分.結果[5],這個策略以獲得前3位結束了競賽,也得到了大量接近底部的位置.雖然這個策略顯著地證明了比以牙還牙有效,但是這是因為利用了下述事實:在這個特殊的競賽中,多重通道是被允許的.在一方只能控制單一參與者的競賽中,以牙還牙確實是更好的策略.
如果重復囚徒困境將被精確地重復N次,已知N是一個常數,那麼會產生另一個有趣的事實.納什均衡就是每次都背叛.這很容易用歸納法證明.你也可以在最後的回合背叛,既然你的對手將沒有機會懲罰你.因此,你們都將在最後的回合背叛.這時,你可以在倒數第二回合中背叛,既然最後一回無論你做什麼,你的對手都將背叛.依此類推.為了合作以保持請求,這時未來必須對兩個參與者來說是不確定的.一個解決方案是讓博弈總次數N變成隨機的.對未來的預期必須是無法確定的長度.
另一個單獨的案例是「永不停止」的囚徒困境.這個博弈被重復很多次,而且你的分數是一個平均數(當然是用計算機計算的).
囚徒困境博弈是某些人類合作和信任理論的基礎.假定囚徒困境能夠模擬需要信任的兩人之間的交流,群體的合作行為可以用有多個參與者的、重復博弈的變體來模擬.這從而引起了許許多多學者經久不衰的興趣.1975年,格羅夫曼(Grofman)和普爾(Pool)估計,致力於這方面研究的學術文章,數量超過2000篇.
[編輯] 學習心理學和博弈論
當博弈參與者能學會估計其他參與者背叛的可能性,他們自身的行為就為他們關於其他人的經驗所影響.簡單的統計顯示,總體上,缺乏經驗的參與者與其他參與者的互動,或者是典型的好,或者是典型的壞.如果他們在這些經驗的基礎上行動,(通過更多的背叛或合作,否則)他們可能在未來的交易中受損.隨著經驗逐漸豐富,他們獲得了對背叛可能性的更真實的印象,變得更成功地參與博弈.不成熟的參與者經歷的早期交易對他們未來參與的影響,可能比這些交易對成熟的參與者的影響要大得多.這個原理部分地解釋了,為什麼年輕人的成長經驗這么具有影響力,以及為什麼他們特別容易被欺負,有時他們本身最後也成為欺凌弱小者.
群體中背叛的可能性,可以被合作的經驗所削弱[6],因為先前的博弈建立了信任.因此自我犧牲行為可以,例如,加強團體的道德品質.如果團體很小,積極行為更可能以互相肯定的方式——鼓勵這個團體中的個人繼續合作——得到反饋.這與相似的困境有關:鼓勵那些你將援助的人,從可能使他們處於危險的境地的行為中得到滿足.這類方法主要在互惠利他主義、群選擇、血緣選擇和道德哲學的研究中涉及.
[編輯] 相關的博弈
[編輯] 封閉袋子交易
霍夫施塔特2曾提出像囚徒困境的問題.他提出「密封袋子交易」,他認為以這簡單博弈題,有助人們理解此論題.
「密封袋子交易」:甲、乙兩人面對面交換密封的袋子,雙方的共識是甲的袋放錢、乙的放商品.雙方各自可以誠實地把東西放到袋子,然後交換;又或者交空袋子給對方,選擇背叛.
在這場博弈中,由於背叛可獲得巨大利益,必然有多人選擇背叛.這意味著理性的商人不會進行這種交易,因而「封閉袋子交易」將由於逆向選擇而失去市場.
[編輯] 是敵是友?
「是敵是友?」是一個競賽表演節目,從2002年到2005年在美國競賽表演廣播網(Game Show Network)放映.這是一個用真人進行的囚徒困境博弈例子,不過情景是人造的.這個競賽表演有三對人參與競爭.當每對人被淘汰時,他們做一個囚徒困境博弈,決定如何分他們的獎品.如果他們都合作(「朋友」),他們的獎品就被平分.如果一個合作而另一個背叛(「敵人」),背叛者得到所有的獎品,合作者什麼都得不到.如果雙方互相背叛,那麼兩人都一無所獲.注意,這個支付矩陣與前述標準的支付矩陣不同,因為發生「互相背叛」的情形和「我合作而對手背叛」的情形,其損失是一樣的.和標准囚徒困境的穩定均衡相比,「互相背叛」是不穩固的均衡(weak equilibrium).如果你知道你的對手將成為「敵人」,這時你的選擇無法影響你的獎品.在某種意義上,「是敵是友」擁有一個介於「囚徒困境」和「小雞」之間的支付模型.
這個支付矩陣是:
如果參與者都合作,每人得到 +1.
如果都背叛,每人得到 0.
如果甲合作而乙背叛,甲得到0而乙得到 +2.
是敵是友對於想對囚徒困境作現實分析的人將是有用的.注意到,參與者只能進行一次,所以所有涉及重復進行博弈的觀點都不適用,「以牙還牙」策略也無法發展出來.
在是敵是友中,每個參賽者被允許做一個聲明,使另一半友在雙方秘密決定合作或背叛之前,確信他的友善.可能「打破制度」的方法將是一個參與者告訴他的對手:「我會選擇做敵人.如果你相信我後來會和你分獎品的話,就選擇做朋友.否則,如果你選擇做敵人,我們都會空手而回.」一個更貪婪的版本將是:「我將選擇做敵人.我會給你百分之X,剩下的百分之(100-X)歸我.所以,要或不要,要麼我們都得到一些,要麼我們都一無所獲.」(在最後通牒博弈中時.)現在,奸計就是去盡量減少那個百分之X,並保持另一個競爭者仍然選擇做朋友.基本上,這個參與者必須知道這個界限,在這里他的對手從看到他一無所獲中得到的效用,要超過他從肯定能贏得的金錢中得到的效用,如果他順利的話.
在競賽中這個方法從未被試驗過;可能是因為裁判們不會允許,而且即使允許,不平等厭惡也會由於這個規則的使用而導致較低的期望收益.(最後通牒博弈中嘗試了這個方法,結果導致對高而不平等的出價的拒絕——在一些案例中,相當於兩周的工資優先於兩個參與者一無所獲被決絕.)
http://ent.sina.com.cn/m/2002-03-21/76881.html
B. 博弈均衡的進化穩定策略的演算法
計算進化穩定策略的方法主要有兩大類:一是從動態過程出發,求出系統的平衡點,然後,再根據進化穩定策略的定義進行驗證就可以了;另一種方法就是直接用進化穩定策略定義來求。第一種方法涉及到具體的動態過程,並且只要知道動態過程就很容易求出進化穩定策略,本文略(可以參考張良橋2001)。第二種方法就是通過定義來求,下面給出一種簡單的處理方法。
根據納什均衡的定義可以知道,如果策略 是博弈的納什均衡,那麼,所有以正概率進入最優混合策略的純策略都是最優的,參與人在所有這些純策略所得的支付都是無差異的(見《博弈論與信息經濟學》102-103頁,張維迎),即有:
表示混合策略中非零概率的純策略。假定存在 且下標為 的純策略滿足 ,令B是矩陣A中對應於非零純策略的 階子矩陣。且令C為 矩陣,其中代表元素為: 。那麼當且僅當C是負定的, 就是進化穩定策略(見John Haigh 1974)。
證明:假定 ,並且存在 ,有 ,那麼很明顯有 ,其中 是第 個純策略,即在與穩定策略者群體博弈時,突變策略者得到的支付比穩定策略者還要大,所以策略 不是進化穩定策略,所以式(6)是進化穩定策略的必要條件。因此,對應於非零概率的純策略滿足: ,對滿足條件的策略 有(注意 ):
對任意 ,當且僅當
有: 。綜上所述,利用該方法來求進化穩定策略的步驟如下:
首先,令 個非零混合策略,然後解 個方程: ,定義B,C再考察矩陣C的所有特徵根是否都為負,若都是負則所得的策略就是進化穩定策略。
如求對稱博弈 ,它有兩個進化穩定策略: 。
如果某策略組合是嚴格納什均衡策略,那麼就可以直接得出它就是進化穩定策略,但如果是弱納什均衡策略,那麼就可運用上述的方法來進行判定。由此,可得到求博弈的進化穩定策略步驟:一是求出博弈所有的納什均衡;二是由支付判斷出其中的嚴格納什均衡;三對非嚴格納什均衡而言就代入上述方程,並判斷是否為負定即可以求出博弈中所有進化穩定策略。
C. 博弈均衡的納什均衡思想及其內涵
非合作博弈論研究面對利益沖突的個體互動時,參與人的策略反應。給定利益沖突每一個參與人必須從既定的選擇集中作出選擇。在博弈論中選擇就是策略,選擇集就是策略集。每一個參與對選擇集中的各個策略都有既定的偏好,所有參與人的選擇決定了博弈的結果。
博弈論關心的問題之一是:面對特定博弈,其解是什麼?博弈論的最重要的解就是由博弈論理論家Nash(1951)在研究非合作博弈問題時提出來的納什均衡。所謂納什均衡策略是一個策略組合,是指在其他參與人選擇一定的條件下,每一個參與人都選擇獲得最大支付的策略,換句話說,納什均衡狀態就是任何單獨偏離不會得到改善的一種狀態。下面給出納什均衡的正式定義(張維迎《博弈論與信息經濟學》1994,P69):
定義:有 個參與人的戰略表示式博弈 ,策略組合 是一個納什均衡,對每一個參與人 , 都是給定其他參與人選擇 時第 個參與人的最優選擇。
其實在求解納什均衡時,就是解聯立的偏微分方程組。顯然,納什均衡是一個局部最優而非全局最優均衡概念,因此,納什均衡並不能保證就是支付最高的不動點。由此便引出了帕累托效率均衡:沒有所有參與人都得到更高支付的其他選擇的均衡就是帕累托效率均衡,用數學語言來描述(Menasché.D.S. et. al. (2005))
博弈論關心的問題之二是:參與人是如何進行策略選擇的,為什麼會選擇納什均衡策略?非合作博弈理論假定參與人是完全理性的,在處理動態博弈時,還要求參與人滿足序貫理性這一比理性更強的要求。在如此強的假定下,參與人會對世界的任何變化都會作出最優反應,因此,如果存在均衡,那麼參與人總會選擇均衡策略,但在處理多重要均衡問題時,由於參與人難以推測對方的反應,因此,無法在多重均衡之間進行選擇,盡管博弈論理論對此進行了廣泛而深入的研究,但正如Ken Binmore在給Weibull(1995)的「evolutionary game theory」一書作的序言中指「However different game theorists proposed so many different rationality definitions the available set of refinements of Nash equilibrium became embarrassingly large, Eventually almost any Nash equilibrium could be justified in terms of someone or other』s refinement」。有關納什均衡演算法可參閱王則柯,李傑(2005)。