ゲーム理論と協力の進化(自然選択体験ゲーム、囚人のジレンマ演習)

松田裕之(2000) 『環境生態学序説』共立出版
R・アクセルロッド(1998) 『つきあい方の科学』(松田裕之訳、ミネルヴァ書房)、
兵庫県博の沢田佳久氏のサイトhttp://www.nat-museum.sanda.hyogo.jp/rsc/keitou/spx/dnld-spx.htmlから「自然選択体験ゲーム」SPXを入手して体験しておくこと。
--------------------------------------------------------------------------------
No.2 進化生態学と個体群生態学の統合
自然選択体験ゲームSPXの破り方(人工生命と遺伝的アルゴリズム

反復囚人のジレンマゲーム(実際にやってもらいます)
  アクセルロッド「つきあい方の科学」松田訳,ミネルヴァ書房

ゲーム理論@囚人のジレンマ

東京大学海洋研究所助教授 松田裕之

1. 進化ゲーム理論の誕生
 ゲームの理論を提唱した一人は、現在の電子計算機の基本設計を考えたジョン・フォン=ノイマンである。1953年に経済学者のモルゲンシュテルンと著した『ゲームの理論と経済行動』は、その名の通り経済学の理論であった。ある人の利益は、その人のふるまいだけでなく、付き合う相手のふるまいにも左右される。彼らはそれぞれの自分の利益を追い求める。その結果、協力して双方得になる場合もあれば、抜け駆けして相手を大損させることもある。社会全体の利益の最大化ではなく、それぞれの利益を追い求める理論が、ゲーム理論である。
 この理論を最初に生態学に応用した一人は、今年京都賞を受賞したジョン・メイナード=スミスである。1981年に訳出された彼の著書『進化とゲーム理論』は、生物のふるまいをゲーム理論を用いて説明した。生物の適応進化現象を研究する学問分野は、やがて進化生態学と名づけられた。生物の振る舞いは、人間の経済行動とは異なり、遺伝子が司る形質(表現型)に基づいていて、経済学とは異なる独自の発展を遂げた。これから3回にわたり、生物の進化を説明するゲーム理論について、簡単に紹介する。

2. 軍拡競「走」
 自然淘汰がもたらす進化を、しばしば競争社会になぞらえる。しかし、自然淘汰は、必ずしも競争関係をもたらすものではない。
 岩波『生物学辞典(第四版)』の「共進化」の項を見ると、「軍拡競走」という術語が登場する。誤植ではない。英語ではarms raceという。生態学では「競争」はcompetitionの訳語であり、raceとは区別される。生態学ではこの字を使うことが多いと説明されている。
 生物界での軍拡競走は、必ずしも競争する種間で成り立つ関係ではない。むしろ餌と捕食者の関係に多く見られる。あるいは、宿主と寄生者(病原体)の関係に見られる。これらの関係は、互いに迷惑をかけあう競争関係ではない。被食者は捕食者に繁殖上の利益をもたらし、逆に捕食者は被食者の未来を奪う。宿主と寄生者(病原体)の関係もこれと同じである。
 宿主に免疫機能があるように、被食者も被食回避に努めている。隠れ家に避難したり、逃げ足を早くしたり、始終あたりを見回したり、毒を持ったり、棘に身を包んだり、群れを成したり、見つかりにくい姿に変わる。しかし、捕食者もそれを乗り越えて攻撃能力を強化する。捕食者と被食者の軍拡競走とは、攻撃力と防衛力の増強合戦である。したがって、軍拡競走とは、生態学用語としての競争とは異なる。
 では、生存闘争(the struggle for existence)は競争だろうか。再び岩波『生物学辞典(第四版)』によると、この術語はチャールズ・ダーウィンが「もともとは比喩的」用語として用いたが、「進化学上はあまり使用されなくなっている」と説明されている。平凡社『世界大百科事典』の「自然淘汰natural selection」(浦本昌紀)の項を見ると、「ダーウィンはその著書の中で、生存闘争(生存競争)struggle for existence、最適者生存 survival of the fittest という言葉を自然淘汰とほとんど同じ意味で使った。これは不幸なことで、さまざまな誤解を生じた。自然淘汰は同種個体間のものであるが、これらの言葉は自然淘汰を同種個体同士の闘争(競争)と錯覚させることになり、一方ではホッブズの〈万人に対する万人の闘争〉という言葉を連想させたし、一方では同種内での弱肉強食を考えさせた」と述べている。たしかにわかりにくい。岩波辞典の言うとおり、生存闘争という用語は、あまり使わないほうがよさそうである。いずれにしても、自然淘汰は競争関係だけではなく、捕食・寄生などの搾取関係や、双利(共生)関係にも作用する(松田1995)。

自然淘汰説によれば、生物はより多くの子孫を残す適応的な形質が進化する。協力関係とは、自分の繁殖上の利益だけではなく、つき合う相手の利益も計る間柄であり、適応進化の考えと矛盾するように見える。以前は、種全体の繁栄に有効(群淘汰)だとする説があったが、現在はあくまでも、他者より自分の子孫を増やすのに効果的な形質が進化する(個体淘汰)と考えられている。イギリスの生態学者R・ドーキンス(1976)は、個体淘汰説のことを「利己的な遺伝子」と名づけた著書を著した。これが流行したことで、適応進化が種の繁栄をもたらすという謬説は、社会から払拭されつつある。
 利己的遺伝子は、共生関係をも説明する。生物どうしの関係は、ほとんどの場合、決定的に対立しているわけではない。なわばり争いでは、勝者が弱者を殺すことなく、一定の規則に則って比較的平和的に勝負が決まる場合が多い。実際に闘わず、にらみ合いだけで終わる場合もある。肉食のライオンは共同で狩りをし、獲物を分配するという(ウィルソン2000)。クジラでは、傷ついた相手を溺れぬように助ける行動が同種内のみならず、異種問でもよく見られるという。ドグエラヒヒはあぶれ雄が結託して他の雄の支配する群れを乗っ取ることがある(トリヴァース1992)。小鳥の群れは、交替で首を挙げて天敵を監視しながら餌をとる。鳥には他人の子育てを手伝う種も多い(ウィルソン2000)。ある個体の行動がその個体自身の適応度を下げて受け手のそれを上げるとき、それを利他行動という。働き蜂など血縁淘汰と呼ぼれるものでは、送り手が自分の直系の子孫の数の期待値を減らすが受け手が血縁個体であるために、血縁者の子孫も含めれば有利になる。ただし、相互協力行動は個体適応度を下げる行為とはいえない。情けは他人のためならずと言うが、相互協力は結局は自分の利益になる「功 利主義」に適う行動である。
表1 3種類の非ゼロ和ゲームの利得表(各欄は自分の利得を表す)
(a)タカハトゲーム(V<C)
自分\相手 タカ派H ハト派D
タカ派H (V-C)/2 V
ハト派D 0 V/2
(b)囚人のジレンマ(T>R>P>S, 2R>T+S)
自分\相手 裏切りD 協力C
裏切りD P(1) T(5)
協力C S(0) R(3)
(C)英雄ゲーム V>e>s>0
自分\相手 放精♂ 産卵♀
放精♂ -s V-s
産卵♀ V-e -e

3. ゲーム理諭となわぱり争いの儀式化
 非血縁個体間の関係を説明する上で、ゲーム理論はたいへん有効であった。生物の進化は、目前の相手と適応度(子孫の数の期待値)を直接比べるのではない。集団全体の平均値より得か損かが重要だと考えられている。他人の儲けた分だけ必ず自分が損するゲームを、ゼロ和ゲームという。ゼロ和ゲームなら、協力関係は説明できない。しかし、つきあいは両者の振舞いによって、双方とも得したり、損することがあり得る。表1は、すべてそのような非ゼロ和ゲームの例である。表1(a)は、なわばり争いを説明するタカハトゲームの利得表である(メイナードスミス1982)。各個体のとれる手段は、どちらかが傷つくまで争う(タカ派)か、相手がタカ派なら無理せず撤退する(ハト派)かどちらかとする。ハト派同士なら勝率は半々とする。勝ったときの利益がV、争って傷つくコストをCとする。タカ派同士なら勝者はVの利益を得るが敗者はCの損失を被り、勝率五分五分なら利得の期待値は(V-C)/2である。タカ派とハト派が遭遇すると、ハト派はタカ派に闘わずしてVの利益を譲る代わり、どちらも傷つくこともない(ハト派の利得0)。
 Cが0でないために非ゼロ和ゲームとなり、双方の得点の合計は、双方の出方によって一定でなくなる。C<Vならば、相手がハト派なら自分はタカ派の方が得で(V>V/2)、相手がタカ派でもやはりタカ派の方が有利である[(V-C)/2>0]。これは、表1(b)にある「囚人のジレンマ」と呼ばれるゲームの状態である(ただし表1の説明にある2R>T+Sは不等号でなく、等号になる)。
 V<Cならぱ、相手がタカ派なら自分がタカ派となって怪我をする危険を冒すより、ハト派となって縄張りを譲った方がましである。ゲーム理論では、これを弱虫(chicken)ゲームという(西山賢一1986)。このとき、タカ派とハト派がV/C対(1-V/C)の比率でいる状態で均衡する。均衡比よりタカ派が少ないときはタカ派が、多いときはハト派が有利になる。戦略の違う突然変異が生じても適応度が低く、変異体の子孫が増えない。このような均衡状態を、進化的な安定状態(ESS)という(メイナードスミス1982)。ESSとは、突然変異が生じてもその子孫が増えることがなく、生物の振るまいが世代を通じて変わらないことを意味する.
 両者の利益の合計が最大になるのは、双方ハト派のときである。しかし、ESSはV>Cならすべてタカ派、V<Cでもタカ派が残る。すなわち全体の利益を高める群淘汰とESSを実現する個体淘汰は違う予測をする。また、タカ派とハト派が対すれぱその場限りではタカ派が得である。タカ派同士だと大損するために共存状態で均衡している。"Chicken"と言われて逆上するのは、映画『バックトゥーザフューチャー』の主人公だが、生物は闘うことなく縄張りを譲ることがある。タカハトゲームは、つき合う相手と損得を比べるべきではないという、非ゼロ和ゲームの好例である。
 VがCより大きい場合には、表1(b)に示した状態になる.相手がタカ派(裏切り)のとき、自分はハト派(協力)よりタカ派の方が得になる。相手がハト派でも、自分がタカ派のほうが得である。このゲームを「囚人のジレンマ」と呼ぶ。共犯者が逮捕されたとき、ともに黙秘(共犯者に協力)すると証拠不十分で微罪になり、自白(裏切り=警察に対しては協力と言うべきだが)すると司法取り引きによって無罪になり、自分は黙秘して相手が自白すると殺人罪になるような場合である。
 この場合には、一回きりのゲームなら、前段落で述べたように、相手の出方によらず裏切りが有利になる。しかし、相手に協力する行動が、ある条件の下で有利になることがある。その条件とは、同じ相手と何度もつきあいを繰り返すことである。餌を分け合う状況は多くの哺乳類に見られる。その際、餌をとった個体が他の個体に餌を分けることはその場かぎりでは損だが、長いつきあいの中で互いに助けあうことができれば、両者とも得になる。同じ相手と何度もゲームを繰り返すことを、反復ゲームという。
 反復囚人のジレンマゲームでは、1回ごとの利得表は表1(b)で表される(アクセルロッド1987)が、反復ゲーム全体の利得表は、表2のようになる。ここでwは同じ相手と再びつきあう確率(または将来価値の値引率)である。つきあう回数は、1回で終わる確率が(1-w)、2回がw(1-w)、n回がwn-1(1-w)であり、等比級数の公式により、平均Σk=0∞wk(1-w)=1/(1-w)となる。1回ごとに使える手は協力と裏切りの2種類だけだが、全体の戦略としては、常に協カし続ける(全面協力)、全面裏切り、でたらめに協力と裏切りを半々に使い分ける(でたらめ)、裏切りと協力を交互に繰り返す(悪玉善玉)、相手に2回続けて裏切られた後だけ仕返しをする(堪忍袋Tit for 2 tats)、1回目は協カして2回目以後は前回の相手の手を真似する戦略(しっぺ返し Tit for tat)、そして、前回3点以上だったときには同じ手を続け、1点未満だったときには手を変える(パブロフPavlov)など、さまざまな戦略が考えられる。
 自分の手を変えれぼ相手の以後の方針も変わる。前回裏切ったら次回仕返しされてこちらも損をすることがある。このように、1回限りのつきあいでは損をするが、つきあいを繰り返すことにより淘汰の上で有利になり、双方とも得になる行動を互恵主義(reciprocal cooperation)という。しっぺ返しと同じようでも、初回裏切って2回目以降に前回の相手の手を真似するのは、協力関係を実現しづらい(松田1989)。
 反復囚人のジレンマゲームにおいて、ESSの条件を満たす戦略は、二つに大別される。一つは全面裏切りである。集団全員が全面裏切りなら、少しでも協力する戦略は必ず損をする。もう一つは互恵主義である。これが進化的に安定になるには、こちらが先に裏切ることはなく(上品さ)、相手が裏切ればある一定の確率で仕返しをする。相手だけに際限なく裏切らせてはいけない(報復権)。これら2つの性質を持つことが、ESSの必要条件である。
 ただし、相互協力行動の集団に全面協力などの戦略が出現しても、両者互いに協力し合うだけだから区別がつかない(松田1989)。実際には、互恵主義と全面協カの差は、上品でない第3の戦略が出現したときに露呈する。報復を等価報復に徹したのがしっぺ返し戦略である。報復は等価以上に厳しくしても、それ以下にとどめてもよい。寛容に過ぎると、裏切り者が得をする。厳しすぎると、行き違いでいったん裏切りが発生したとき、よりを戻すことができなくなる。つきあいが長続きするほど、報復は限定的でもよい。
 これらの戦略のうちどの戦略が最も優秀かが間題だが、その答えは相手の戦略にも左右される。つまり、相手が全面裏切りなら、1回でも協力するしっぺ返しは損である。相手が互恵的な戦略なら、裏切りは相手の協力を引き出せない。アクセルロッド(1987)は、戦略を計算機プログラムの形で公募し、集まったプログラム同士でゲームの選手権を開き、そこで優勝した戦略を最も優秀だとみなした。
 このような解の求め方は、今風に言うと、環境問題などで行う意見紹介手続き(パブリックコメント)のようなものである。応募されたプログラム同士で選手権を行なってどんた戦略が有効か調ぺた結果、互恵的な戦略は軒並み好成績だったが、上品でない戦略は皆成績が悪かった。さらに上品さと報復権に加え、報復を限定する寛容さを備えた戦略が、協力関係を築きやすく好成績であった。

4.  反復英雄ゲーム
 タカハトゲームや囚人のジレンマゲームでは、同じ立場の個体同士が同じ手を選ぶ状態が進化的に安定だった。しかし、交互に相手を助け合う状況がある。その典型例として、パナマ珊瑚礁域に住む雌雄同体魚ハムレットを紹介する。雌雄同体魚は、必ず番いを作り、一方が放精、他方が産卵する。同時に出して自家受精することはない。卵を小出しにして、交互に産卵(雌役)と放精(雄役)を繰り返し、1晩に10回ほど同じ番いで産卵するという。たまに一方が続けて放精することもある。それは平均して1番いあたり1回強生じ、雌雄役を交替する場合に比べ、2度続けて放精した後に離婚する割合が有意に高い。一般に産卵の負担の方が放精のそれよりも大きいと考えられ、他方、子を作る成果(V)は同じである。そこで、利得表は表1(c)のように、放精するほうが利得が高い。これは英雄ゲームと呼ばれる(松田1989, 1995)。
 つきあいが一度きり(w=0)で、両者の間に情報交換ができないなら、雄役を(V+e-s)/2V(残りが雌役)で使い分ける状態で均衡する。ただし、これだと双方とも産卵し、受精できずに無駄になる場合が生じてしまう。一般に魚類では、卵を無駄にしないため放精のときに雄が雌に合図を送る行動が観察される。情報交換があれば、一方が放精すれぼ他方が産卵するため無駄はないが、雄役の方が高い利得を得る。どちらが雄役をするか根比べになる。合図は早すぎても損な役を引き受けてしまうし、遅過ぎても時聞の浪費になる。
 これを次のように単純に考える。番いを作ると、いずれか一方が雌役をやるという合図をしてから産卵・放精を始める(自分が雄役になるのは得だから、相手の提案を拒否することはない)。日没も蔵卵数の限界も考えず、産卵と伴侶探しをずっと続けると仮定する。つきあいを続けるとき、自分が雄役の後と雌役の後で離婚頻度、および雌役の合図を送る頻度を変えると予測されるが、簡単のため、相互協力戦略の個体は雄役の後すぐに雌役を宣言し、雌役の後相手が雄役を宣言したけれぼ速やかに離婚すると考える。実際には、ハムレットは、2回目以降も間を置いて合図を送る。これは蔵卵数が有限で互いの産卵能力を確かめながら番いを維持しているためと考えられる。適応度はwが高いほど高く、つきあいが長いほど率先して損な雌役をやるだろう。この相互協力行動は、裏切り戦略、つまり2回続けて雄役をやろうとする個体に対して進化的に安定である。裏切り者は必ず得な雄役を演じるが、すぐに離婚されるため高い利得を挙けることができない。
 合図を送るのは、負担の重い雌の方である。雄役をしたいことは言わなくてもわかっているから、雌役をかって出る方が目立つ合図を送ることは、理に適っている。雌雄異体の近縁種では、雄が合図を送る。実際に、雌役をサボる個体は離婚率が高い。
 動物行動学の分野で、互恵主義とみなされる実例は、先ほど紹介したように、さまざまな分類群で見られる。しかし、全面協力か互恵主義化が厳密に識別されている例は少ない。ハムレットの卵の取り引きは、報復が確認されている数少ない例である。

5. その他のゲーム
 相互協力関係が生じうるのは、上に挙げたゲームの例だけではない。前に述べた定義に合うものは、つきあいを繰り返す反復ゲームであれば、他のゲームでも生じうる。たとえぼ、タカハトゲーム(弱虫ゲーム)でもよい。1回きりのタカハトゲームでは、タカ派は完全にはたくならなかった。しかし繰り返し同じ個体同土がつきあう機会があれば、相手が前回タカ派の方針をとらない限りハト派であり続けるという互恵的な戦略は、進化的に安定である。なぜなら、互恵的ハト派同士は常にV/2の利益を得るが、タカ派は互恵的ハト派に対して初回Vの利益を得ても、二回目以降は相手もタカ派になるので(V-C)/2の利得しか得られない。付き合う回数が長ければ、総合点は互恵的ハト派に及ばない。
 囚人のジレンマに限らず、互恵的関係は生物界には広く見られる現象と考えられる。ゲーム理論を用いたこのような解析は、一見「利己的な遺伝子」と矛盾するようなさまざまな現象を説明することができる。
 アクセルロッド(1987)は、非血縁個体間のつきあいにおいて、無用な争いを避け、非ゼロ和ゲームで高い利得を挙げるときの心がまえをいくつか列挙している。まず、自分の利得を相手のそれと比較しないことだ。実は、表2を見れぼわかるように、しっべ返しはつき合う相手より高得点になることはあり得ない。相手に花を持たせて自分の絶対得点をも上げている。しっぺ返しを凹ませる戦略は、絶対得点が少ない。次に、相手がむやみに自分を苦しめることを心配せずに、相手も相手自身の利益を高めようとしていることを理解すべきである。第3に、報復する余地を残すため、つきあいの終わりをはっきりさせるべきではない。第4に、誰かに裏切られた場合、報復する相手を間違えてはならない。第5に、自分が全面協力ではなく、互恵主義者であることを相手に表明すべきである。ゼロ和ゲームと違って、相手に自分の戦略を教えることは必ずしも損ではない。むしろ、互恵主義とわかれば相手も裏切らなくなるだろう。そして最後に、報復は控えめに行うべきである。相手が再び協力してきたら、長く根に持たず協力し直すべきである。さもなければ、些細な誤解やでき心から裏切りが生じたとき、報 復が報復を呼び、貴重な協力関係がだいなしになる。
 パブロフと呼ばれる戦略は、表2ではあまりさえない成績だった。しかし、何らかの行き違いで協力を裏切りと誤解されるようなゲームで、しっぺ返し以上に有効な戦略といわれている(ノワックら1995)。
 こうしたことは、処世術として、ある程度誰もが考えていることと思う。進化ゲーム理論は、このことを説明する数学的道具であり、行動学の現象に応用されて発展してきたのである。

参考文献
アクセルロッド R(1987)『つきあい方の科学』、松田裕之訳、HBJ出版局
ドーキンスR(1991)『利己的な遺伝子』日高敏隆他訳、紀伊国屋書店
松田裕之 (1989) 生物における相互協力関係の理論, オペレーションズリサーチ, 11月号:597-601.
松田裕之 (1995) 『「共生」とは何か−搾取と競争をこえた生物どうしの第三の関係』, 現代書館
メイナード=スミス J(1982)『進化とゲーム理論』寺本英・梯正之訳、産業図書
ノワックMA, メイ RM, シグモンドK (1995) 囚人のジレンマと生物の進化, 日経サイエンス, 25(8):50-57.
西山賢一『勝つためのゲーム理論』(講談杜)1986.
トリヴァース R(1992)『生物の社会進化』(中嶋康裕・福井康雄・原田泰志訳、産業図書)
von Neumann J & Morgenstern O (1953) "Theory of games and economic Behaviour." Princeton University Press
ウィルソン EO(2000)『社会生物学』伊藤嘉昭監訳、思索社