博奕理論

「囚犯的兩難處境」是博奕論裡非常著名的二人博奕。話說兩名犯事的同黨同時被捕,被分別關在兩個獨立的不能互通信息的牢房媔i行審訊。假如兩人皆保持沉默,死不招供的話(也就是與他的同謀合作),則由於證據不足,兩人皆只會輕判一年;但只要其中一人供出他的同黨(即背叛他的同謀),他自己會獲得釋放,但另一被出賣的囚犯就被判20年了。如果兩人都招供的話,則會各被判五年 (見右圖之分析) 。

顯然最好的策略是雙方都保持沉默,結果大家都只被判一年。但是由於兩人被隔離而無法串通,因此按照Adam Smith的理論,每個人都是從利己的目的出發,他們選擇坦白交代是最佳策略。因為同伴保持沉默而自己招供的話,可望獲得釋放,顯然要比保持沉默要坐一年牢好。不僅如此,如果對方招供而自己保持沉默,那自己就得坐20年牢!因此,在這情況下還是選擇招供好,即使兩人同時招供,最多也只判五年,總比被判20年好吧。所以,兩人選擇坦白,而原本對雙方都有利的策略(保持沈默)和結局(被判一年刑期)就不會出現。

各人追求自己利益而導致的最終結局就是所謂“納什均衡”,也是對所有人都不利的結局。從“納什均衡”中我們還可以悟出一個真理:合作是有利的“利己策略”,不過在現實生活中非合作的情況要比合作情況普遍

互惠性利他行為

搏奕理論學者使人類行為之研究變得簡潔無比 , 但卻犧牲了不少現實層面的考慮。他們假設人們所追求的生活目標 , 可以統一為一個單一的心理面向--幸福快樂或「實質效益」; 而且進一步假設 , 在追求過程中是完全理智的。任何一位演化心理學家都會告訴你 , 這樣的假設是錯的。人不是計算機 , 而是動物 ; 人是受到些許理智引導 , 但也受其他力量影響的動物。而且無論多麼看重長期的幸福 , 人們畢竟不是設計來創造最大的幸福的。 但是 , 人們卻是由高度理智且冷漠超然的過程研設計出來的 , 而且目的是要擴大整體基因普及率 , 也就是血緣適存度。當然 , 由這個過程所產生的設計 , 不見得一定行得通。個別的有機體往往因各種原因而未能將基因傳遞下去 ( 失敗是必然的。這就是演化一定會發生的原因 ) 。況且就人類而言 ,人類的設計圖是在與現今社會截然不同的環境中製成的。現在的人住在城市或郊區 , 閒來便看電視、喝啤酒 , 而腦中洶湧、反覆的情感 , 卻是原本設計使小型捕獵 | 採集社會的成員大量繁衍其基因用的。難怪人們似乎總追求不到幸福、血緣適存度或任何其他目標。

應用博奕理論這個利器來研究人類的演化時 , 最好遵循幾個簡單的原則。首先 , 這場遊戲的目的應設定為基因的最大普及率。第一了這場遊戲的背景應反映祖先環境中的真實狀況 , 這個狀況與捕獵/採集社會的環境大致相同。第三 , 找到最理想的策略時 , 實驗還未結束。最後一步是結算 , 藉以描繪出何種情感最能引導人們去實行這個策略。在理論上而言 ,這些情感應該是人性的一部份 , 是演化的遊戲重複無數世代之後的結果。

……互惠性利他行為是怎麼演化出來的呢 ? 這個演化謎團和囚犯困境 , 有異曲同工之妙。某人背叛同伴 , 但對方忠誠依舊 , 就好比動物由於利他行為而受惠 , 但從不回報對方。兩人相互背叛 ,就好比動物根本不互惠 , 雖然雙方可能會因此而得到好處 , 但是誰也不肯冒險跨出友好的第一步。彼此忠於對方 , 就等於是互惠性利他在這個回合中取得勝利。但仍有一個問題:既然對方的回饋不是必然的 , 為什麼還要施惠呢 ?

實驗模式和現實生活畢竟不是完全吻合的。在互惠性利他理論中 , 施惠行為與受惠者的回饋行為之間會相隔一段時間 ; 但在囚犯的困境中 , 施惠與回饋卻同時發生。但是這個差別無關緊要 , 因為囚犯無法就其目前所作的決定進行溝通 , 所以他們各自的處境與動物的處境是一樣的 ..不知道友好的序曲會不會得到回應。如果讓同樣的對手一局接一局地玩下去 , 變成「重覆性囚犯的困境, 而且雙方都可以參考對方先前的行為 , 來決定未來要如何應對 , 那麼過去種了善果的人 , 便可能在未來得利----互惠性利他理論便是如此。其實 , 實驗模式和現實生活之間還算吻合。「重覆性囚犯的困境」必然演繹至雙方合作的方向上 ; 自然界不斷演化 , 亦演繹出互惠性利他行為 , 兩者殊途同歸。而這個演繹邏輯之精華 , 就是非零和現象。

非零和現象

假設你是隻黑猩猩 ' 剛殺了一隻小猴仔 , 然後把一部份的肉分給近來缺糧的同伴 , 就說分了五兩肉吧 , 而這代表你少了五個點數。此時的重點是 , 對方獲得的利益大於你的損失 ,因為他正處於非常需要食物的時刻 , 所以對他而言間 , 食物的真正價值非常高 ( 這裡指的是食物對他的基因繁衍的貢獻 ) 。如果他是人 , 能思考他的處境 , 而且被迫簽下契約的話 , 他可能會答應在下週領了薪水之後 , 立刻買六兩肉來償還現在這五兩肉。所以 , 在這場交易中 ,雖然你只給他五個點數 , 但他得到了六個點數。這場非零和遊戲的重點在於:遊戲中任一人的收益不等於對方的損失。非零和遊戲的特色是 , 透過合作 ( 或說互惠 ), 雙方都有所得。如果那隻黑猩猩在他擁有大量肉食 , 而你幾乎山窮水盡的時候 , 回報你五兩肉 , 那麼他只要犧牲五個點數 , 便令你有六個點數的收穫。結果你們兩人都從交易中得到一個點數的淨利。一連打數局的網球 , 或一連打好幾洞的高爾夫球 , 都只能產生一個贏家。囚犯的困境問題則不然 , 因為那是非零和遊戲。只要合作的話 , 兩邊都是贏家。穴居人甲和穴居人乙若肯結合起來 , 一同獵捕一人無法制服的禽獸的話 , 雙方的家人都可吃頓大餐 ; 否則的話 , 誰都吃不到這些野味。

分工產生了大量的非零和現象 , 你成了縫合獸皮的專家 , 供應我衣物 ; 我則磨製石器及木柄 , 為你作矛箭。此例以及上述的黑猩猩之例 , 和其他許多非零和現象 , 其關鍵在於這隻動物多餘的東西 , 對另一隻動物而苦卻彌足珍貴。這個情況屢見不鮮。

……在分享食物的例子中 , 用互惠性利他的方式 , 你可以得一個點數 ; 要是用欺騙的 , 接受他人慷慨的魄贈但絕不回饋 , 則可得六個點數。這個情況似乎表示 , 比較起來 , 合作實在沒什麼價值 , 如果能剝削他人的話 , 就儘量剝削。況且 , 要是設有可供剝削的人 , 合作仍然不見得是最佳策略,身邊盡是想辦法要剝削你的人 , 那麼你恐怕得採取相互剝削的策略 , 才能把損失減到最低。非零和現象到底能不能促進互惠性利他的演化 , 和當時的社會風氣有很大的關懷。若想採用「囚犯的困境」這個模式 , 還得予以改進 , 只指出非零和現象是不夠的。

虛擬子民「一報還一報」

然而 , 演化心理學家已越來越能概略地重演演化過程 , 崔佛斯於一九七一年發表互惠性利他理論時 , 電腦還是專家才會用的新奇玩意兒 , 個人電腦則根本不存在。雖然崔佛斯成功地用「囚犯的困境」來分析他的理論 , 但並未談及實際模擬這個模式--在電腦襄創造出一批人 , 這些人不斷地面對這個兩難問題 , 成則生 , 敗則亡 , 並讓天擇進行自然的篩選。一九七 0 年代 , 一位美國政治科學家羅伯﹒艾索洛德設計出一個電腦世界 , 在裡面安置了一批「居民」 ; 接著他邀請博奕理論的專家 , 為「重覆性囚犯的困境」擬出一套蘊含某種策略的電腦程式 , 程式會根據本身的原則 ,來決定與其他程式碰面時要不要合作。他絲毫未曾提及演化 , 這並非他的原始動機。然後他讓程式自動執行。這樣的競賽環境 , 相當符合人類及人類前身演化時的社會環境 ; 其社會規模很小 , 只有幾十個人 ( 程式 ) 在互動。每個程式都「記得」之前與其他程式相過時有無合作 , 並據此來調整自己的行為。每個程式都與其他每個程式碰面了兩百次之後 , 艾索洛德便把每個程式的分數加總起來 , 選出一個贏家 ; 接著以這個系統化篩選所得的第二代再進行一場競爭。每一程式所佔之比例 , 代表其第一代之成功率 ; 適者才能生存。如此一代又一代地進行下去。如果互惠性利他理論是正確的 , 那麼在艾索洛德的電腦世界中 , 互惠性利他程式應該會「演化」成龐大的族群。

的確如此。獲勝的那個程式是加拿大的博奕理論專家安那托﹒拉披坡特所設計的 , 叫做「一報還一報」。「一報還一報」的原則只有五行而已 , 是所有提交的程式中最簡短的。因此 , 如果策略由電腦的隨機變化來產生 , 而不是由人來設計 , 「一報還一報峙的策略可能是電腦最早跑出來的策略之一。「一報還一報」的確名符其實。在初次遇到任何其他程式的時候 , 它會合作 ; 之後 , 上次對方怎麼對待它 , 這次它就如數回報回去、也就是說 , 善行報之以善 , 惡行報之以惡。這個策略的優點和策略本身一樣簡單 , 如果對方有合作傾向 , 「一報還一報」便與它結為盟友 , 共享合作的果實片如果對方有背叛傾向 , 「一報還一報」就拒絕合作以降低損失,除非對方又變好了。這一來便不會因為他人的剝削 , 而付出高昂的代價 , 「一報還一報」便不會像無差別待遇的合作傾向那樣 , 一再成為受害者。「一報還一報」亦不會像絕對不合作的程式那樣不得善終 ; 這種程式只想剝削其他程式 , 但一遇到那種除非你示好我才會示好的程式 , 便會因為一直互相背叛而付出慘重的代價。「一報還一報」根本就放棄藉剝削他人而得到一次龐大的利益。而那些以剝削為志的策略 , 不管是無情的背叛還是不斷突如其來的背叛 , 在遊戲的過程中會慢慢地落後 ; 別的程式都不再善待它 , 因此它既不能剝削他人以獲得重大利益 , 也不能和他人合作而得應有的成果。「一報還一報」勝過絕對壞心眼的程式 , 也勝過各種規則繁複得令其他程式難以了解的「聰明」程式 ; 由於條件明確 , 使得它在長期的競賽中拔得頭籌。