Reply to this topicStart new topicStart Poll

> 你是個好人,你笑到了最後
徐元直
發表於: Jan 23 2010, 02:59  評價+3
Quote Post


攤抖首領
************

發表數: 7,909
所屬群組: 君主
註冊日期: 9-18-2003

活躍:63
聲望:4175


但是千萬不要做濫好人喔。

================以下屬於轉載,但未知原出處================


  美國密執根大學的Robert Axelrod為了研究有關合作的問題,在1979年組織了一場特殊的計算機比賽。這場比賽的設計非常簡單:要求每個參賽的博奕論專家根據「囚徒困境博弈」規則,各自設計一種計算機程序,然後用單循環賽的方式將參賽程序兩兩博弈,以找出得分最高的策略。Axelrod在比賽開始之前,先設定了兩個前提:每個人都是自私的;沒有權威干預個人決策。也就是說,個人可以完全按照自己最大化利益進行決策。他要研究的主要問題是:人為什麼要合作?人什麼時候合作,什麼時候不合作?如何使別人與自己合作?第一輪博弈有14個程序參加,再加上Axelrod自己的一個隨機程序(即以50%的概率選取合作或不合作),運轉了300次。結果得分最高的是加拿大學者Anatol Rapoport編寫的「一報還一報」(Tit for Tat)程序。這個程序的特點是,第一次對局採取合作的策略,以後每一次對局都採用和對手上一次相同的策略,即對手上一次合作,我這次就合作,對手上一次不合作,我這次就不合作。Axelrod發現,得分排在前面的程序有三個特點:「善良的」(be nice),即不首先背叛;「反擊的」(be reactive),對於對方的背叛行為一定要報復,也搞一次背叛;「寬恕的」(forgive),不懷恨在心,只要對手以後改為合作,我們也要與之合作。

  為了進一步驗證上述結論,Axelrod決定邀請更多的人再進行一次比賽。第二次他徵集到了62個程序,加上他自己的隨機程序,一共是63個程序。比賽結果獲冠軍的仍是「一報還一報」程序。

  Axelrod總結這次比賽的結論是:「一報還一報」仍是最優策略;前面提到的三個特點仍然有效。除此之外,Axelrod認為佔優的策略還必須具有的一個特點是「不過於『聰明』」,也就是說要「簡單」,以便對手能夠理解,可以使對方很快就發現規律,從而與你採取合作的態度。

具有諷刺意味的是,除了「隨機程序」以外,得分最差的一個程序恰恰是設計得最複雜的一種程序。15種戰略中,有8種是首先選擇「合作」,被列為 「善戰略」,另外7種戰略是首先選擇「背叛」,而且總想誘使對方受騙,被列為「惡」戰略。最後,「善戰略」總分均高於「惡戰略」。

「一報還一報」不僅善良,而且不刻意追求高分,又能寬容(一開始雖然報復對方,但對方態度變好了,就不再記仇)。寬容心差,就容易陷入雙方老是「彼此背叛」的狀態。「一報還一報」是15種戰略中最簡易又最善良的一種,它最後得分最高,是許多人所未想到的。「一報還一報」的特點:一是「善良」,決不首先 「背叛」。二是「反應快」,對方若「背叛」,馬上就以「背叛」還擊,決不猶豫。三是「寬容」,對方若是態度變為「合作」,就不記前仇,立即回應以「合作」。四是「無忌妒之心」,不因對方玩弄心計一時得分高而自己也玩弄心計。五是「簡便易行」,始終堅持「一報還一報」,易於堅持到底,態度明朗,對方明白了也會照樣做。

阿克塞爾羅德總結了第一輪比賽的結果,宣佈舉行第二輪比賽。這次參賽的程序有63個,其中包括那個「隨機程序」,還有約翰·史密斯提出的一種更寬厚的「一報還兩報」,即遭到對方兩次「背叛」後才予以還擊。這一輪的場次不加限制,阿克塞爾羅德在他於1984年出版的《合作的進化》一書中指出這樣做是因為對未來的關注可以促進合作。有些人讀了阿克塞爾羅德對第一輪比賽的分析以後,研究了怎樣利用那些「善戰略」和「寬容戰略」的方案,提出了一些新的「惡戰略」,但最後還是輸了。拉波波特的「一報還一報」再次獲勝。得分最高的前15名中,有14名都是「善」的,而得分最少的15名當中,則有14名都是 「惡」的。「一報還兩報」的戰略未能獲勝,因為許多「惡戰略」都費盡了心機來利用對方的寬容。

這一事實導致一個重要的發現:一種戰略的成功取決於它與之較量的那些戰略的性質。理查德·道金斯在他那本深受讀者歡迎的《自私的基因》(1974 年初版,1990年、2006年再版)一書中指出,阿克塞爾羅德舉辦的比賽是像橄欖球聯賽一樣採用了循環賽制。參賽的每一戰略都需要跟別的戰略交鋒,全贏者才勝出。「一報還兩報」若在第一輪推出,可能勝出,但是它在第二輪推出就不行了,因為第二輪「善」者比例低於第一輪。「一報還一報」能勝出,是因為 「善」者在第二輪畢竟也還多於「惡」者,否則它也會敗。循環制不同於道金斯所說的「進化上的穩定策略」(ESS),道金斯說,凡是種群的大部分成員採用某種策略,而這種策略的好處為其他策略所比不上的,這種策略便是進化上的穩定策略。

阿克塞爾羅德仍然用第二輪參賽的63種戰略進行了第三輪比賽,以尋找一種能反映達爾文學說「自然選擇」原則的「進化穩定策略」。在這新的一輪比賽中,63種電腦程序被列為「第一代」。「第一代」比賽結束時,記錄下每一種電腦程序及其「後裔」的百分比。幾代之後,有些程序比例減少,到了「第200 代」,多數「惡戰略」已遭淘汰,別的戰略繼續比賽。到了「第1000代」左右時,每一戰略在總數中所佔百分比停止變化,終於達到了穩定狀態。在6場比賽中,「一報還一報」勝了5場。另5種類似的戰略成績也不錯,其中一種在第六場獲勝。有一種叫做「哈林頓」的「惡戰略」熬過了「第200代」,但隨後一些 「善」的和「寬容」的戰略敗出了比賽以後,這一「惡戰略」找不到它易於擊敗的靶子,終於在接近「第1000代」時敗亡。


--------------------
......
PMEmail Poster
Top
胡飛
發表於: Jan 23 2010, 03:44  
Quote Post


沈迷電玩
************

發表數: 3,729
所屬群組: 君主
註冊日期: 11-17-2004

活躍:10
聲望:194


我是個好人,但在現今的世代中周圍大部分人都是壞人,我被磨死了。我的後代生活得很好,但這已經跟我無關了。好人仍然會死。

不過「一報還一報」好像也不是ESS。

本篇文章已被 胡飛 於 Jan 23 2010, 06:34 編輯過


--------------------
user posted image
PMEmail Poster
Top
0 位使用者正在閱讀本主題 (0 位訪客及 0 位匿名使用者)
0 位會員:

Topic Options Reply to this topicStart new topicStart Poll

 



[ Script Execution time: 0.0274 ]   [ 13 queries used ]   [ GZIP 啟用 ]