囚徒困境是博弈論的非零和博弈中具代表性的例子,反映個人最佳選擇並非團體最佳選擇。雖然困境本身只屬模型性 質,但現實中的價格競爭、環境保護等方面,也會頻繁出現類似情況。
單次發生的囚徒困境,和多次重複的囚徒困境結果不會一樣。
在重複的囚徒困境中,博弈被反覆地進行。因而每個參與者都有機會去「懲罰」另一個參與者前一回合的不合作行為。這時,合作可能會作為均衡的結果 出現。欺騙的動機這時可能被受到懲罰的威脅所克服,從而可能導向一個較好的、合作的結果。作為反覆接近無限的數量,納什均衡趨向於帕累托最優。
囚徒困境的主旨為,囚徒們雖然彼此合作,堅不吐實,可為全體帶來最佳利益(無罪開釋),但在資訊不明的情況下,因為出賣同夥可為自己帶來利益(縮短 刑期),也因為同夥把自己招出來可為他帶來利益,因此彼此出賣雖違反最佳共同利益,反而是自己最大利益所在。但實際上,執法機構不可能設立如此情境來誘使 所有囚徒招供,因為囚徒們必須考慮刑期以外之因素(出賣同夥會受到報復等),而無法完全以執法者所設立之利益(刑期)作考量。
警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據指控二人有罪。於是警方分開囚禁嫌疑犯,分別和二人見面,並向雙方提供以下相同的選擇:
囚徒到底應該選擇哪一項策略,才能將自己個人的刑期縮至最短?兩名囚徒由於隔絕監禁,並不知道對方選擇;而即使他們能交談,還是未必能夠盡信對方不 會反口。就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇:
這場博弈的納什均衡,顯然不是顧及團體利益的帕累托最優解決方案。以全體利益而言,如果兩個參與者都合作保持沉默,兩人都只會被判刑半年,總體利益更高,結果 也比兩人背叛對方、判刑2年的情況較佳。但根據以上假設,二人均為理性的個人,且只追求自己個人利益。均衡狀況會是兩個囚徒都選擇背叛,結 果二人判監均比合作為高,總體利益較合作為低。這就是「困境」所在。例子華麗地證明了:非零和博弈中,帕累托最優和納什均衡是相衝突的。
我們可以合理地設想,如果囚徒第一次被對方指控,第二次這個囚徒也會指控對方。相反,如果第一次別人保持沉默,建立了互信的關係,你也會保持沉默,達致帕 累托最優。
當然,兩個囚徒都會有相似的想法,在第一局保持沉默,以期望建立互信關係,所以雙方都會保持沉默。第二局時,雙方亦應有相似的想法,繼續保持沉默,以期繼 續在互信的情況下進行第三局,以致餘下的八局。 這種想法合理嗎?
在第十局時,互信的關係明顯是沒有意義的,因為十局已經完結,囚徒沒有必要為維持互信的關係而沉默(沒有第十一局),所以第十局囚徒一定會背叛對方的,理 由和只有一局囚徒困境一樣。
問題是,既然大家都知道在第十局,無論如何對方都會背叛自己的,你在第九局保持沉默也是沒有意思的,要知道,保持沉默(友好關係)的原因是為了希望下一局 別人保持沉默。所以第九局雙方都一定會背叛對方的。
下一個問題是,雙方都有相同的想法,明知第九局對方會背叛自己,所以第八局保持沉默也是沒有意思的,第七局亦然,如此類推,納什均衡是十局都會互相背叛, 建立互信關係是沒有可能的。
只有在囚徒困境的局數大家都不肯定的情況下,上述的推論才不會發生,才會出現互相保持沉默的現象。
有兩個參與者和一個莊家。參與者每人有一式兩張卡片,各印有「合作」和「背叛」。參與者各把一張卡片文字面朝下,放在莊家面前。文字面朝下排除了參 與者知道對方選擇的可能性1。 然後,莊家翻開兩個參與者卡片,根據以下規則支付利益:
簡單博弈獲得的點數可以得出一些一般化的結論。
T、R、P、S符號表
若以T(Temptation)=背叛誘惑,R(Reward)=合作報酬,P(Punishment)=背叛懲罰,S(Suckers)=受騙支 付,以個人選擇得分而言,可得出以下不等式。
T>R>P>S
(解:從5>3>1>0獲得以上不等式)
若以整體獲分而言,將得出以下不等式。
2R>T+S或2R>2P
(解:2×3>5+0或2×3>2x1;合作2人共得6分,比起互相背叛的共得2分及單獨背叛的共得5分,顯然合作獲分比背叛高。合作 在團體而言是支配性策略。)
而重複博弈或重複的囚徒困境將會使參與者從注重T>R>P>S轉變成注重2R>T+S。就是說將使參與者脫離困境。 以上理論是道格拉斯·霍夫施塔特創建的。
當一國因某些因素不遵守關稅協定,而獨自提高關稅(背叛)時,另一國也會作出同樣反應(亦背叛),這就引發了關稅戰,兩國的商品失去了對方的市場,對本身經濟也造成損害(共同背叛的結果)。然後二國又重新達成關稅協定。(重複博弈的結果是將發 現共同合作利益最大。)
兩個公司互相競爭,二公司的廣告互相影響,即一公司的廣告較被顧客接受則會奪取對方的部分收入。但若二者同時期發出質量類似的廣告,收入增加很少但 成本增加。但若不提高廣告質量,生意又會被對方奪走。
此二公司可以有二選擇:
阿克塞爾羅德發現,當這些對抗被每個選擇不同策略的參與者一再重複了很長時間之後,從利己的角度來判斷,最終「貪婪」策略趨向於減少,而比較「利他」策略更多地被採用。他用這個博弈來說明,通過自然選擇,一種利他行為的機制可能從最初純粹的自私機制進化而來。
最佳確定性策略被認為是「以牙還牙」,這是阿納托爾·拉波波特(Anatol Rapoport)開發並運用到錦標賽中的方法。它是所有參賽程序中最簡單的,只包含了四行BASIC語言,並且贏得了比賽。這個策略只不過是在重複博弈 的開頭合作,然後,採取你的對手前一回合的策略。更好些的策略是「寬恕地以牙還牙」。當你的對手背叛,在下一回合中你無論如何要以小機率(大約是1%-5 %)時而合作一下。這是考慮到偶爾要從循環背叛的受騙中復原。當錯誤傳達被引入博弈時,「寬恕地以牙還牙」是最佳的。這意味著有時你的動作被錯誤地傳達給 你的對手:你合作但是你的對手聽說你背叛了。
通過分析高分策略,阿克塞爾羅德指定了策略獲得成功的幾個必要條件。
重新考慮經典的囚徒困境一節中給定的軍備競賽模型:結論是,只是理性策略增進了軍事力量,似乎兩個國家都寧可花費其GDP在槍炮而不是黃油上。有趣的是,企圖說明對抗國家實際上以這種方式(在「重複囚徒困境假定」下的不同時 期,軍費支出在「高」和「低」之間反覆)競賽的嘗試,卻經常表明假定的軍備競賽並沒有如預想的那樣出現。(例如希臘人和土耳其人的軍費支出,看來並不像遵循「以牙還牙」的重複囚徒困境式的軍備競賽,卻更可能是被其國內的政策所驅使。)這可 能是一次性博弈和重複性博弈中的理性行為不同的例子。
對一次性囚徒困境博弈來說,最佳(點數最大化的)策略是簡單地背叛;正如前面解釋的,無論對手的行動可能是什麼,這都是真實的。但是,在重複的囚徒 困境博弈中,最佳策略依賴於可能的對手的策略,和他們怎樣對背叛和合作作出反應。例如,考慮這樣一個人群,那裡每個人每次都背叛,除了一個人是遵循以牙還 牙策略。這個人處於一種輕微的不利地位,因為第一回合的損失。在這樣的人群中,對這個人來說最佳策略就是每次都背叛。在一個有一定的百分比的總背叛者而剩 下的則是以牙還牙者的人群中,對個人來說的最佳策略依賴於這個百分比和博弈的長度。
一般有兩種方法得到最佳策略:
如果重複囚徒困境將被精確地重複N次,已知N是一個常數,那麼會產生另一個有趣的事實。納什均衡就是每次都背叛。這很容易用歸納法證明。你也可以在最後的回合背叛,既然你的對手將沒有機會懲罰你。因此,你們都將在最後的回合背叛。這時,你可以 在倒數第二回合中背叛,既然最後一回無論你做什麼,你的對手都將背叛。依此類推。為了合作以保持請求,這時未來必須對兩個參與者來說是不確定的。一個解決 方案是讓博弈總次數N變成隨機的。對未來的預期必須是無法確定的長度。
另一個單獨的案例是「永不停止」的囚徒困境。這個博弈被重複很多次,而且你的分數是一個平均數(當然是用計算機計算的)。
囚徒困境博弈是某些人類合作和信任理論的基礎。假定囚徒困境能夠模擬需要信任的兩人之間的交流,群體的合作行為可以用有多個參與者的、重複博弈的變 體來模擬。這從而引起了許許多多學者經久不衰的興趣。1975年,格羅夫曼(Grofman)和普爾(Pool)估計,致力於這方面研究的學術文章,數量 超過2000篇。
群體中背叛的可能性,可以被合作的經驗所削弱[6], 因為先前的博弈建立了信任。因此自我犧牲行為可以,例如,加強團體的道德品質。如果團體很小,積極行為更可能以互相肯定的方式——鼓勵這個團體 中的個人繼續合作——得到反饋。這與相似的困境有關:鼓勵那些你將援助的人,從可能使他們處於危險的境地的行為中得到滿足。這類方法主要在互惠利他主義、群選擇、血緣選擇和道德哲學的研究中涉及。
在這場博弈中,由於背叛可獲得巨大利益,必然有多人選擇背叛。這意味著理性的商人不會進行這種交易,因而「封閉袋子交易」將由於逆向選擇而失去市場。
這個支付矩陣是:
在是敵是友中,每個參賽者被允許做一個聲明,使另一半友在雙方秘密決定合作或背叛之前,確信他的友善。可能「打破制度」的方法將是一個參與者告訴他 的對手:「我會選擇做敵人。如果你相信我後來會和你分獎品的話,就選擇做朋友。否則,如果你選擇做敵人,我們都回空手而回。」一個更貪婪的版本將是:「我 將選擇做敵人。我會給你百分之X,剩下的百分之(100-X)歸我。所以,要或不要,要麼我們都得到一些,要麼我們都一無所獲。」(在最後通牒博弈中時。)現在,奸計就是去盡量減少那個百分之X,並保持 另一個競爭者仍然選擇做朋友。基本上,這個參與者必須知道這個界限,在這裡他的對手從看到他一無所獲中得到的效用,要超過他從肯定能贏得的金錢中得到的效 用,如果他順利的話。
在競賽中這個方法從未被試驗過;可能是因為裁判們不會允許,而且即使允許,不平等厭惡也會由於這個規則的使用而導致較低的期望收益。(最後通牒博弈中嘗試了這個方法,結果導致對高而不平等的出價的拒絕 ——在一些案例中,相當於兩周的工資優先於兩個參與者一無所獲被決絕。)
轉貼自http://zh.wikipedia.org/zh-tw/%E5%9B%9A%E5%BE%92%E5%9B%B0%E5%A2%83
單次發生的囚徒困境,和多次重複的囚徒困境結果不會一樣。
在重複的囚徒困境中,博弈被反覆地進行。因而每個參與者都有機會去「懲罰」另一個參與者前一回合的不合作行為。這時,合作可能會作為均衡的結果 出現。欺騙的動機這時可能被受到懲罰的威脅所克服,從而可能導向一個較好的、合作的結果。作為反覆接近無限的數量,納什均衡趨向於帕累托最優。
囚徒困境的主旨為,囚徒們雖然彼此合作,堅不吐實,可為全體帶來最佳利益(無罪開釋),但在資訊不明的情況下,因為出賣同夥可為自己帶來利益(縮短 刑期),也因為同夥把自己招出來可為他帶來利益,因此彼此出賣雖違反最佳共同利益,反而是自己最大利益所在。但實際上,執法機構不可能設立如此情境來誘使 所有囚徒招供,因為囚徒們必須考慮刑期以外之因素(出賣同夥會受到報復等),而無法完全以執法者所設立之利益(刑期)作考量。
經典的 囚徒困境
1950年,由就職於蘭德公司的梅里爾·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關困境的理論,後來由顧問艾伯特·塔克(Albert Tucker)以囚徒方式闡述,並命名為「囚徒困境」。經典的囚徒困境如下:警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據指控二人有罪。於是警方分開囚禁嫌疑犯,分別和二人見面,並向雙方提供以下相同的選擇:
- 若一人認罪並作證檢控對方(相關術語稱「背叛」對方),而對方保持沉默,此人將即時獲釋,沉默者 將判監10年。
- 若二人都保持沉默(相關術語稱互相「合作」),則二人同樣判監半年。
- 若二人都互相檢舉(互相「背叛」),則二人同樣判監2年。
甲沉默(合作) | 甲認罪(背叛) | |
乙沉默(合作) | 二人同服刑半年 | 甲即時獲釋;乙服刑10年 |
乙認罪(背叛) | 甲服刑10年;乙即時獲釋 | 二人同服刑2年 |
- 解說
如同博弈論的其他例證,囚徒困境假定每個參與者(即「囚徒」)都是利己的,即都尋求最大自身利益,而不關心另一參與者的利 益。參與者某一策略所得利益,如果在任何情況下都比其他策略要低的話,此策略稱為「嚴格劣勢」,理性的參與者絕不會選擇。另外,沒有任何其他力量干預個人 決策,參與者可完全按照自己意願選擇策略。囚徒到底應該選擇哪一項策略,才能將自己個人的刑期縮至最短?兩名囚徒由於隔絕監禁,並不知道對方選擇;而即使他們能交談,還是未必能夠盡信對方不 會反口。就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇:
- 若對方沉默、我背叛會讓我獲釋,所以會選擇背叛。
- 若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。
這場博弈的納什均衡,顯然不是顧及團體利益的帕累托最優解決方案。以全體利益而言,如果兩個參與者都合作保持沉默,兩人都只會被判刑半年,總體利益更高,結果 也比兩人背叛對方、判刑2年的情況較佳。但根據以上假設,二人均為理性的個人,且只追求自己個人利益。均衡狀況會是兩個囚徒都選擇背叛,結 果二人判監均比合作為高,總體利益較合作為低。這就是「困境」所在。例子華麗地證明了:非零和博弈中,帕累托最優和納什均衡是相衝突的。
- 固 定局數的囚徒困境
試想像囚徒困境的情況進行十次。我們可以合理地設想,如果囚徒第一次被對方指控,第二次這個囚徒也會指控對方。相反,如果第一次別人保持沉默,建立了互信的關係,你也會保持沉默,達致帕 累托最優。
當然,兩個囚徒都會有相似的想法,在第一局保持沉默,以期望建立互信關係,所以雙方都會保持沉默。第二局時,雙方亦應有相似的想法,繼續保持沉默,以期繼 續在互信的情況下進行第三局,以致餘下的八局。 這種想法合理嗎?
在第十局時,互信的關係明顯是沒有意義的,因為十局已經完結,囚徒沒有必要為維持互信的關係而沉默(沒有第十一局),所以第十局囚徒一定會背叛對方的,理 由和只有一局囚徒困境一樣。
問題是,既然大家都知道在第十局,無論如何對方都會背叛自己的,你在第九局保持沉默也是沒有意思的,要知道,保持沉默(友好關係)的原因是為了希望下一局 別人保持沉默。所以第九局雙方都一定會背叛對方的。
下一個問題是,雙方都有相同的想法,明知第九局對方會背叛自己,所以第八局保持沉默也是沒有意思的,第七局亦然,如此類推,納什均衡是十局都會互相背叛, 建立互信關係是沒有可能的。
只有在囚徒困境的局數大家都不肯定的情況下,上述的推論才不會發生,才會出現互相保持沉默的現象。
- 一般形式
整理囚徒困境的基本博弈結構,可更清楚地分析囚徒困境。實驗經濟學常用這種博弈的一般形式分析各種論題。以下是實現一般形式的其中一例:有兩個參與者和一個莊家。參與者每人有一式兩張卡片,各印有「合作」和「背叛」。參與者各把一張卡片文字面朝下,放在莊家面前。文字面朝下排除了參 與者知道對方選擇的可能性1。 然後,莊家翻開兩個參與者卡片,根據以下規則支付利益:
- 一人背叛、一人合作:背叛者得5分(背叛誘惑),合作者0分(受騙支付)。
- 二人都合作:各得3分(合作報酬)。
- 二人都背叛:各得1分(背叛懲罰)。
合作 | 背叛 | |
---|---|---|
合作 | 3, 3 | 0, 5 |
背叛 | 5, 0 | 1, 1 |
合作 | 背叛 | |
---|---|---|
合作 | R, R | S, T |
背叛 | T, S | P, P |
合作 | 背叛 | |
---|---|---|
合作 | 勝-勝 | 大負-大勝 |
背叛 | 大勝-大負 | 負-負 |
T、R、P、S符號表
符號 | 分數 | 英文 | 中文(非術語) | 解釋 |
---|---|---|---|---|
T | 5 | Temptation | 背叛誘惑 | 單獨背叛成功所得。 |
R | 3 | Reward | 合作報酬 | 共同合作所得 |
P | 1 | Punishment | 背叛懲罰 | 共同背叛所得 |
S | 0 | Suckers | 受騙支付 | 被單獨背叛所獲 |
T>R>P>S
(解:從5>3>1>0獲得以上不等式)
若以整體獲分而言,將得出以下不等式。
2R>T+S或2R>2P
(解:2×3>5+0或2×3>2x1;合作2人共得6分,比起互相背叛的共得2分及單獨背叛的共得5分,顯然合作獲分比背叛高。合作 在團體而言是支配性策略。)
而重複博弈或重複的囚徒困境將會使參與者從注重T>R>P>S轉變成注重2R>T+S。就是說將使參與者脫離困境。 以上理論是道格拉斯·霍夫施塔特創建的。
- 現實的例子
上述例子可能顯得不甚自然,但現實中,無論是人類社會或大自然都可以找到類似囚徒困境的例子,將結果劃成同樣的支付矩陣。社會科學中的經濟學、政治學和社會學,以及自然科學的動物行動學、進化生物學等學科,都可以用囚徒困境分析,模擬生物面對無止境的囚徒困境博弈。囚徒困境可以廣為使用,說明這種博 弈的重要性。以下為各界例子:- 政 治學例子:軍備競賽
在政治學中,兩國之間的軍備競賽可以用囚徒困境來描述。兩國都可以聲稱有兩種選擇:增加軍備(背叛)、或是達成削減武器協議(合作)。兩國 都無法肯定對方會遵守協議,因此兩國最終會傾向增加軍備。似乎自相矛盾的是,雖然增加軍備會是兩國的「理性」行為,但結果卻顯得「非理性」(例如會對經濟 造成都有損壞等)。這可視作遏制理論的推論,就是以強大的軍事力量來遏制對方的進攻,以達到和平。- 經 濟學例子:關稅戰
兩個國家,在關稅上可以有以兩個選擇:當一國因某些因素不遵守關稅協定,而獨自提高關稅(背叛)時,另一國也會作出同樣反應(亦背叛),這就引發了關稅戰,兩國的商品失去了對方的市場,對本身經濟也造成損害(共同背叛的結果)。然後二國又重新達成關稅協定。(重複博弈的結果是將發 現共同合作利益最大。)
- 商 業例子:廣告戰
商 業活動中亦會出現各種囚徒困境例子。以廣告競 爭為例。兩個公司互相競爭,二公司的廣告互相影響,即一公司的廣告較被顧客接受則會奪取對方的部分收入。但若二者同時期發出質量類似的廣告,收入增加很少但 成本增加。但若不提高廣告質量,生意又會被對方奪走。
此二公司可以有二選擇:
- 互相達成協議,減少廣告的開支。(合作)
- 增加廣告開支,設法提升廣告的質量,壓倒對方。(背叛)
- 自行車賽例子
自行車賽事的比賽策略也是一種博弈,而其結果可用囚徒困境的研究成果解釋。例如每年都舉辦的環法自由車賽中有以下情況:選手們在到終點前的路程常以大隊伍(英文:Peloton)方式前進,他們採取這策 略是為了令自己不至於太落後,又出力適中。而最前方的選手在迎風時是最費力的,所以選擇在前方是最差的策略。通常會發生這樣的情況,大家起先都不願意向前 (共同背叛),這使得全體速度很 慢,而後通常會有二或多位選手騎到前面,然後一段時間內互相交換最前方位置,以分擔風的阻力(共同合 作),使得全體的速度有所提升,而這時如果前方的其中一人試圖一直保持前方位置(背叛),其他選手以及大隊伍就會趕上(共同 背叛)。而通常的情況是,在最前面次數最多的選手(合作)通常會到最後被落後的選手趕上(背叛),因為後面的選手騎 在前面選手的沖流之中,比較不費力。- 與 囚徒困境相關的各事件
- 異想
威廉·龐德斯通(William Poundstone)在他的著作中,以一紐西蘭的例子來說明囚徒困境。在紐西蘭,報亭既無管理員也不上鎖,買報紙的人自行放下錢後拿走報紙。當然某些人可能取走 報紙卻不付錢(背叛),但由於大家認識到如果每個人都偷竊報紙(共同背叛)會造成以後不方便的有害結果,這種情形很少發生。 這例子特別之處是紐西蘭人並沒有被任何其他因素影響而能脫離囚徒困境。並沒有任何人特別去注意報亭,人們守規則是為了避免共同背叛帶來的惡 果。這種避免囚徒困境的大家共同的推理或想法被稱為「異想(magical thinking)」。[3]- 「認 罪減刑」不可行
囚徒困境的結論是許多國家中認罪減刑(英文:plea bargain)被禁止的原因之一。囚徒困境帶來的結論是:如果有二個罪犯,其中一人犯罪而另外一人是無辜的,犯罪者會為了減刑坦白一切甚至冤枉清白者(單 獨背叛)。最糟糕的情況是,如果他們二人都被判入獄,坦白的犯罪者刑期少,堅持無罪的冤枉者刑期反而更多。- 公用品悲劇
現實的博弈參與者不只一方,會有多方參與的囚徒困境。加勒特·詹姆斯·哈丁(Garrett James Hardin)的公用品悲劇就是一例:「公用品悲劇是指凡是屬於最多數人的公共財產常常 是最少受人照顧的事物」,例如漁業,公海中 的魚是屬於公共的,而在本身不濫捕其他人也濫捕的思想下,漁民會沒有節制的大撈特撈,結果海洋生態破壞,漁民的生計也受影響(共同背叛的結 果)。但是,多方囚徒困境的提法有待商榷,因為其總是可以被分解為一組組經典的二方囚徒困境。就是說只有二方的囚徒困境,沒有多方的。所謂多方的囚徒困境 只是由多個二方囚徒困境混雜在一起而形成的錯覺。- 重複的 囚徒困境
羅伯特·阿克塞爾羅德在其著作《合作的進化》中,探索了經典囚徒困境情景的一個擴展,並把它稱作「重複 的囚徒困境」(IPD)。在這個博弈中,參與者必須反覆地選擇他們彼此相關的策略,並且記住他們以前的對抗。阿克塞爾羅德邀請全世界的學術同行來設計計算 機策略,並在一個重複囚徒困境競賽中互相競爭。參賽的程序的差異廣泛地存在於這些 方面:演算法的複雜性、最初的對抗、寬恕的能力等等。阿克塞爾羅德發現,當這些對抗被每個選擇不同策略的參與者一再重複了很長時間之後,從利己的角度來判斷,最終「貪婪」策略趨向於減少,而比較「利他」策略更多地被採用。他用這個博弈來說明,通過自然選擇,一種利他行為的機制可能從最初純粹的自私機制進化而來。
最佳確定性策略被認為是「以牙還牙」,這是阿納托爾·拉波波特(Anatol Rapoport)開發並運用到錦標賽中的方法。它是所有參賽程序中最簡單的,只包含了四行BASIC語言,並且贏得了比賽。這個策略只不過是在重複博弈 的開頭合作,然後,採取你的對手前一回合的策略。更好些的策略是「寬恕地以牙還牙」。當你的對手背叛,在下一回合中你無論如何要以小機率(大約是1%-5 %)時而合作一下。這是考慮到偶爾要從循環背叛的受騙中復原。當錯誤傳達被引入博弈時,「寬恕地以牙還牙」是最佳的。這意味著有時你的動作被錯誤地傳達給 你的對手:你合作但是你的對手聽說你背叛了。
通過分析高分策略,阿克塞爾羅德指定了策略獲得成功的幾個必要條件。
- 友善
- 最重要的條件是策略必須「友善」,這就是說,不要在對手背叛之前先背叛。幾乎所有的高分策略都是友善的。因此,完全自私的策略僅僅出於自私的原 因,也永遠不會首先打擊其對手。
- 報復
- 但是,阿克斯洛德主張,成功的策略必須不是一個盲目樂觀者。要始終報復。一個非報復策略的例子是始終合作。這是一個非常糟糕的選擇,因為「下流」 策略將殘酷地剝削這樣的傻瓜。
- 寬恕
- 成功策略的另一個品質是必須要寬恕。雖然它們不報復,但是如果對手不繼續背叛,它們會一再退卻到合作。這停止了報復和反報復的長期進行,最大化了 得分點數。
- 不嫉妒
- 最後一個品質是不嫉妒,就是說不去爭取得到高於對手的分數(對於「友善」的策略來說這也是不可能的,也就是說「友善」的策略永遠無法得到高於對手 的分數)。
重新考慮經典的囚徒困境一節中給定的軍備競賽模型:結論是,只是理性策略增進了軍事力量,似乎兩個國家都寧可花費其GDP在槍炮而不是黃油上。有趣的是,企圖說明對抗國家實際上以這種方式(在「重複囚徒困境假定」下的不同時 期,軍費支出在「高」和「低」之間反覆)競賽的嘗試,卻經常表明假定的軍備競賽並沒有如預想的那樣出現。(例如希臘人和土耳其人的軍費支出,看來並不像遵循「以牙還牙」的重複囚徒困境式的軍備競賽,卻更可能是被其國內的政策所驅使。)這可 能是一次性博弈和重複性博弈中的理性行為不同的例子。
對一次性囚徒困境博弈來說,最佳(點數最大化的)策略是簡單地背叛;正如前面解釋的,無論對手的行動可能是什麼,這都是真實的。但是,在重複的囚徒 困境博弈中,最佳策略依賴於可能的對手的策略,和他們怎樣對背叛和合作作出反應。例如,考慮這樣一個人群,那裡每個人每次都背叛,除了一個人是遵循以牙還 牙策略。這個人處於一種輕微的不利地位,因為第一回合的損失。在這樣的人群中,對這個人來說最佳策略就是每次都背叛。在一個有一定的百分比的總背叛者而剩 下的則是以牙還牙者的人群中,對個人來說的最佳策略依賴於這個百分比和博弈的長度。
一般有兩種方法得到最佳策略:
- 貝葉斯納什均衡:如果對抗策略的統計分佈能被確定(例如,50%以牙還牙,50%一直合作),就能從數學上獲得最佳的相對策略[4]。
- 已經有了人群的蒙特卡羅模擬,在這裡低分個人消失了,高分個人一再被生產出來(一種獲得最佳策略的天才演算法)。決賽人群中的演算法合成通常依賴 於初賽人群中的演算法合成。
如果重複囚徒困境將被精確地重複N次,已知N是一個常數,那麼會產生另一個有趣的事實。納什均衡就是每次都背叛。這很容易用歸納法證明。你也可以在最後的回合背叛,既然你的對手將沒有機會懲罰你。因此,你們都將在最後的回合背叛。這時,你可以 在倒數第二回合中背叛,既然最後一回無論你做什麼,你的對手都將背叛。依此類推。為了合作以保持請求,這時未來必須對兩個參與者來說是不確定的。一個解決 方案是讓博弈總次數N變成隨機的。對未來的預期必須是無法確定的長度。
另一個單獨的案例是「永不停止」的囚徒困境。這個博弈被重複很多次,而且你的分數是一個平均數(當然是用計算機計算的)。
囚徒困境博弈是某些人類合作和信任理論的基礎。假定囚徒困境能夠模擬需要信任的兩人之間的交流,群體的合作行為可以用有多個參與者的、重複博弈的變 體來模擬。這從而引起了許許多多學者經久不衰的興趣。1975年,格羅夫曼(Grofman)和普爾(Pool)估計,致力於這方面研究的學術文章,數量 超過2000篇。
- 學 習心理學和博弈論
當博弈參與者能學會估計其他參與者背叛的可能性,他們自身的行為就為他們關於其他人的經驗所影響。簡單的統計顯示,總體上,缺乏經驗的參與者與其他 參與者的互動,或者是典型的好,或者是典型的壞。如果他們在這些經驗的基礎上行動,(通過更多的背叛或合作,否則)他們可能在未來的交易中受損。隨著經驗 逐漸豐富,他們獲得了對背叛可能性的更真實的印象,變得更成功地參與博弈。不成熟的參與者經歷的早期交易對他們未來參與的影響,可能比這些交易對成熟的參 與者的影響要大得多。這個原理部分地解釋了,為什麼年輕人的成長經驗這麼具有影響力,以及為什麼他們特別容易被欺負,有時他們本身最後也成為欺凌弱小者。群體中背叛的可能性,可以被合作的經驗所削弱[6], 因為先前的博弈建立了信任。因此自我犧牲行為可以,例如,加強團體的道德品質。如果團體很小,積極行為更可能以互相肯定的方式——鼓勵這個團體 中的個人繼續合作——得到反饋。這與相似的困境有關:鼓勵那些你將援助的人,從可能使他們處於危險的境地的行為中得到滿足。這類方法主要在互惠利他主義、群選擇、血緣選擇和道德哲學的研究中涉及。
- 相關的博弈
- 封閉袋子交易
霍夫施塔特2曾 提出,像囚徒困境一類的問題,若以簡單博弈的形式來說明,人們會較容易理解。例如他以「封閉袋子交易」的簡單博弈來說明此論題:在這場博弈中,由於背叛可獲得巨大利益,必然有多人選擇背叛。這意味著理性的商人不會進行這種交易,因而「封閉袋子交易」將由於逆向選擇而失去市場。
- 是敵是友?
「是敵是友?」是一個競賽表演節目,從2002年到2005年在美國競賽表演廣播網(Game Show Network)放映。這是一個用真人進行的囚徒困境博弈例子,不過情景是人造的。這個競賽表演有三對人參與競爭。當每對人被淘汰時,他們做一個囚徒困境 博弈,決定如何分他們的獎品。如果他們都合作(「朋友」),他們的獎品就被平分。如果一個合作而另一個背叛(「敵人」),背叛者得到所有的獎品,合作者什 麼都得不到。如果都背叛,那麼兩人都一無所獲。注意,這個支付矩陣與前述標準的支付矩陣不同,因為發生「都背叛」的情形和「我合作而對手背叛」的情形,其 損失是一樣的。和標準囚徒困境的穩定均衡相比,「都背叛」是不穩固的均衡(weak equilibrium)。如果你知道你的對手將成為「敵人」,這時你的選擇無法影響你的獎品。在某種意義上,「是敵是友」擁有一個介於「囚徒困境」和 「小雞」之間的支付模型。這個支付矩陣是:
- 如果參與者都合作,每人得到 +1。
- 如果都背叛,每人得到 0。
- 如果甲合作而乙背叛,甲得到0而乙得到 +2。
在是敵是友中,每個參賽者被允許做一個聲明,使另一半友在雙方秘密決定合作或背叛之前,確信他的友善。可能「打破制度」的方法將是一個參與者告訴他 的對手:「我會選擇做敵人。如果你相信我後來會和你分獎品的話,就選擇做朋友。否則,如果你選擇做敵人,我們都回空手而回。」一個更貪婪的版本將是:「我 將選擇做敵人。我會給你百分之X,剩下的百分之(100-X)歸我。所以,要或不要,要麼我們都得到一些,要麼我們都一無所獲。」(在最後通牒博弈中時。)現在,奸計就是去盡量減少那個百分之X,並保持 另一個競爭者仍然選擇做朋友。基本上,這個參與者必須知道這個界限,在這裡他的對手從看到他一無所獲中得到的效用,要超過他從肯定能贏得的金錢中得到的效 用,如果他順利的話。
在競賽中這個方法從未被試驗過;可能是因為裁判們不會允許,而且即使允許,不平等厭惡也會由於這個規則的使用而導致較低的期望收益。(最後通牒博弈中嘗試了這個方法,結果導致對高而不平等的出價的拒絕 ——在一些案例中,相當於兩周的工資優先於兩個參與者一無所獲被決絕。)
轉貼自http://zh.wikipedia.org/zh-tw/%E5%9B%9A%E5%BE%92%E5%9B%B0%E5%A2%83
No comments:
Post a Comment