読書メモ

個人的な読書メモ。それ以上でも以下でもありません。

ゲーム理論・入門 新版 (岡田章) 第03章 戦略ゲーム / 第04章 ナッシュ均衡点 / 第05章 利害の対立と協力

ゲーム理論 新版 が難しすぎたので、ゲーム理論・入門 新版--人間社会の理解のために (有斐閣アルマ) から読むことにした。

ゲーム理論・入門 新版--人間社会の理解のために (有斐閣アルマ)

ゲーム理論・入門 新版--人間社会の理解のために (有斐閣アルマ)

  • 作者:岡田 章
  • 出版社/メーカー: 有斐閣
  • 発売日: 2014/09/18
  • メディア: 単行本(ソフトカバー)

「第03章 戦略ゲーム」では具体的なゲームが例示され、「第04章 ナッシュ均衡点」では例示された各ゲームのナッシュ均衡を計算している。「第05章 利害の対立と協力」ではパレート最適の概念が説明される。ナッシュ均衡は個人的な合理性を表し、パレート最適が集団的な合理性を表す。

概論

  • 定和ゲームとゼロ和ゲームは本質的に同じなので、定和ゲームもゼロ和ゲームと呼ぶ。
  • どの行動を選ぶかを1つに決定する戦略を 純戦略 (pure strategy)、どの行動を選ぶかを確率的に決定する戦略を 混合戦略 (mixed strategy) という。
  • 「相手の行動に対して最適な行動をとる」という行動原理を最適適応という。
  • 相手が戦略を変更しない限り、どのプレイヤーも自分だけが戦略を変更しても何のメリットもない (利得が増えない) ような戦略の組のことをナッシュ均衡という。
  • ナッシュ均衡点の一般的定義: 戦略形  n 人ゲームにおいて、プレイヤーの戦略の組  s^* = (s_1^*, s_2^*, \cdots, s_n^*)ナッシュ均衡点であるとは、全てのプレイヤー  i の全ての戦略  s_i \in S_i に対して、 f_i (s^*) \geq f_i (s^* / s_i) である時をいう。
    •  S_i: プレイヤー  i の戦略集合。純戦略の集合でも混合戦略の集合でも良い。
    •  f_i (s):  n 人のプレイヤーの戦略の組  s = (s_1, s_2, \cdots, s_n) に対するプレイヤー  i の利得。
    •  f_i (s^* / s_i) は、戦略の組  s^* でプレイヤー  i だけが戦略を  s_i に変更してできる戦略の組を表す。 f_i (s_i, s_{-i}^*) と書くこともある。
  • ナッシュの定理: 純戦略の数が有限な戦略形  n 人ゲームは、混合戦略の範囲で少なくとも1つのナッシュ均衡点を持つ
  • ゲーム理論を創ったノイマンとモルゲンシュテルンは、均衡概念をプレイヤーの合理的な行動を示すものとして捉えた。これを合理的均衡という。一方でナッシュは、プレイヤーの合理性の仮定を必要としない集団均衡またはマスアクションという考え方を提示した。

戦略形ゲームの具体例とそれぞれのナッシュ均衡

ピザ店の顧客獲得競争

ゼロ和2人ゲーム / 同時手番ゲーム

二軒のピザ屋 A と B が存在し、顧客獲得競争をしている。現状は A / B ともに市場の50%のシェアを分け合っている。

次の手番で、どちらか一方だけ価格を下げると価格を下げた店は50%から70%にシェアを伸ばすことができ、価格を下げなかった店は50%から30%にシェアを落としてしまう。

利得行列

A\B 価格維持 値下げ
価格維持 5, 5 3, 7
値下げ 7, 3 5, 5

ナッシュ均衡

(値下げ, 値下げ) の戦略の組がナッシュ均衡点である。

  • (値下げ, 値下げ) の場合は、どちらのプレイヤーにとっても、相手が戦略を変えず値下げのままで、自分だけが戦略を価格維持に変更すると利得が下がってしまうので、ナッシュ均衡点である。
  • (価格維持, 価格維持) の場合は、どちらのプレイヤーにとっても、相手が戦略を変えず価格維持のままで、自分だけが戦略を値下げに変更すると利得を5から7に上げることができるので、ナッシュ均衡点ではない。
  • (価格維持, 値下げ) と (値下げ, 価格維持) の場合は、価格維持戦略を取っているプレイヤーが (相手は戦略を変えず値下げのままであるという前提のもとで) 値下げ戦略に変更すると、利得を3から5に上げることができるので、ナッシュ均衡点ではない。

支配戦略

プレイヤーAはプレイヤーBがどのような戦略を取ろうとも、値下げする方が高い利得を得られる。またプレイヤーBはプレイヤーAがどのような戦略を取ろうとも、値下げする方が高い利得を得られる。

この様に、あるプレイヤーの持つ戦略aと戦略bに対して、他のプレイヤーの戦略が何であろうと、戦略aの方が戦略bよりも高い利得を与えるとき、戦略aは戦略bを支配する、または戦略aは戦略bよりも優位であるという。

また、他のプレイヤーの戦略が何であろうと、戦略aの方が戦略bよりも高い利得か等しい利得を与え、少なくとも1つの戦略に対しては高い利得を与えるとき、戦略aは戦略bを弱支配する、または戦略aは戦略bよりも弱優位であるという。

あるプレイヤーの戦略aが他の全ての戦略を支配するとき、戦略aをそのプレイヤーの支配戦略または優位戦略であるという。支配戦略はそのプレイヤーの唯一の最適応答戦略となる。

定理4.2 戦略形  n 人ゲームにおいてプレイヤーの支配戦略の組は、ナッシュ均衡点である。(支配戦略から成るナッシュ均衡点のことを特に支配戦略均衡という。)

ちなみに、このゲームをシェアの取り合いではなく、利潤の最大化を目的とするゲームにすると囚人のジレンマと同じ構造のゲームになる。

マックスミニ戦略

この様な定和(ゼロ和)ゲームでは、一方の利得が分かれば他方の利得も分かるので、通常、利得行列は下記のように一方の利得だけで表される。

A\B 価格維持 値下げ
価格維持 5 3
値下げ 7 5

この時、行プレイヤー (プレイヤーA) は利得を最大化しようとするので最大化プレイヤー、列プレイヤー (プレイヤーB) は利得を最小化しようとするので最小化プレイヤーと呼ばれる。

また、各戦略を取ったときに最低限保証される利得を保証水準という。例えばAが価格維持戦略を取った場合の保証水準は3で、値下げ戦略を取ったときの保証水準は5となる。そしてAは保証水準を最大化したいので  max(min(5, 3), min(7, 5)) = 5 となる戦略を取る。これをマックスミニ戦略という。

Bの立場で考えると、Bが価格維持戦略を取ったときの保証水準は  max(5, 7) = 7 となり、値下げ戦略を取ったときの保証水準は  max(3, 5) = 5 となる。そしてBは保証水準を最小化したいので  min(max(5, 7), max(3, 5)) = 5 となる戦略を取る。これをミニマックス戦略という。

一般にゼロ和2人ゲームについて、次の定理が成り立つ。

定理4.4 ゼロ和2人ゲームにおいて、マックスミニ戦略とミニマックス戦略の組み合わせがナッシュ均衡点であるための必要十分条件は、マックスミニ利得とミニマックス利得が等しいことである。

定理4.5 ゼロ和2人ゲームにおいて、混合戦略によるマックスミニ利得とミニマックス利得は等しい。(ミニマックス定理)

協調ゲーム

非ゼロ和2人ゲーム / 同時手番ゲーム

国によって道路の通行方向にはルールがある。周囲と同じ方向を通行すると事故にあわずに済むが、周囲と異なる方向を通行してしまうと事故にあう。周りと同じ方向を通行していれば、右側通行でも左側通行でも本質的にはどちらでも良い。エスカレーターで右を空けておくか左を空けておくかなどの慣習も同様。相手と協調すれば高い利得を得られるゲーム。

利得行列

A\B 左側 右側
左側 2, 2 0, 0
右側 0, 0 2, 2

ナッシュ均衡

純戦略によるナッシュ均衡点としては、(左側, 左側) と (右側, 右側) がある。

この様にナッシュ均衡点が複数存在する場合は、どの均衡点をプレイすべきかという均衡選択の問題が生じる。利得の大小では均衡選択問題を解決できないため、利得以外の要素、例えば、サイン・文化・評判・目立った特徴など (フォーカル・ポイントと呼ばれる) が役に立つこともある。

さらに、協調ゲームには混合戦略によるナッシュ均衡も存在する。混合戦略によるナッシュ均衡は、各プレイヤーの行動ごとの確率を仮置して、最適応答グラフを書くことによって求める。

f:id:mas178:20191227164652p:plain

男女の争い

非ゼロ和2人ゲーム / 同時手番ゲーム

男女がいて、デートの行き先を決めようとしている。男女で好みが異なり、男は野球が好きで、女はバレーが好きだとする。互いに自分の好みの行き先に行きたいが、かと言ってデートの行き先が別々になってしまうと、双方の利得はゼロになる。

協調ゲームと同様に協調すれば利得を得られ、協調しなければ利得を得られないが、協調ゲームとは異なり、協調の仕方によってプレイヤーが得られる利得は異なる。

利得行列

男\女 野球 バレエ
野球 2, 1 0, 0
バレエ 0, 0 1, 2

ナッシュ均衡

f:id:mas178:20191227175420p:plain

混合戦略 (p, q) = (2/3, 1/3) における効用は、

  • 男: 2/3 * 1/3 * 2 + 1/3 * 2/3 * 1 = 2/3
  • 女: 1/3 * 2/3 * 1 + 2/3 * 1/3 * 2 = 2/3

で同じとなる。

また、混合戦略のナッシュ均衡点では、プレイヤーが正の確率で選択する純戦略は同じ期待利得を持つという定理がある。(定理4.1)

これは具体的に言うと、下記の2つのことを言っている。

  • 男の期待利得を考えるときに、女が q = 1/3 という戦略を取っていれば、男が p = 1 としようが p = 0 としようが、期待利得は 2/3 のまま変わらない。
  • 女の期待利得を考えるときに、男が p = 2/3 という戦略を取っていれば、女が q = 1 としようが q = 0 としようが、期待利得は 2/3 のまま変わらない。

計算してみよう。

  • (p, q) = (1, 1/3) における男の期待利得は、1 * 1/3 * 2 + 0 * 2/3 * 1 = 2/3
  • (p, q) = (0, 1/3) における男の期待利得は、0 * 1/3 * 2 + 1 * 2/3 * 1 = 2/3
  • (p, q) = (2/3, 1) における女の期待利得は、2/3 * 1 * 1 + 1/3 * 0 * 2 = 2/3
  • (p, q) = (2/3, 0) における女の期待利得は、2/3 * 0 * 1 + 1/3 * 1 * 2 = 2/3

確かに成り立っているようだ。

相関戦略と相関均衡

このゲームにおいて、どの様に協力を実現することができるだろうか?もちろん現状のルールのままでは上記の通り、協力を実現することはできない。

実際の場面では、こうした利害の対立を解消するために、じゃんけんやサイコロを振って出た目が偶数か奇数かで行き先を決めたりする。これは混合戦略と同様に確率的な意思決定の方法の一つではあるが、混合戦略と違う点は、男と女の戦略の取り方が相関していることである。この様な意思決定の方法を相関戦略という。相関戦略において、誰か一人のプレイヤーが戦略を変えても利得が増加しない相関戦略を相関均衡という。

タカハトゲーム (チキンゲーム)

非ゼロ和2人ゲーム / 同時手番ゲーム

プレイヤーAとBがいる。AとBはそれぞれハト戦略 (弱気な戦略や平和的な戦略の比喩) とタカ戦略 (強気な戦略や戦闘的な戦略の比喩) をとることができる。

双方がハト戦略を取ると世界は平和でみんなが幸せになるが、双方がタカ戦略を取ると戦争が起こり誰も幸せにならない。それは分かっていても、一方がタカ戦略を取り、一方がハト戦略を取った場合は、ハトがタカから一方的に蹂躙されてしまうので簡単にハト戦略を取ることはできない。

利得行列

A\B ハト タカ
ハト 2, 2 1, 3
タカ 3, 1 0, 0

ナッシュ均衡

純戦略でのナッシュ均衡点は (ハト, タカ) と (タカ, ハト) だが、混合戦略のナッシュ均衡点がうまく計算できない。。。(後でまた考える。)

ペナルティキック

ゼロ和2人ゲーム / 同時手番ゲーム

キーパーとキッカーがいてペナルティキックを行うとする。キーパーはキッカーと同じ方向に飛ぶとゴールをセーブでき、キッカーはキーパーと逆方向に蹴るとゴールをゲットできる。

利得行列

キーパー\キッカー
1, -1 -1, 1
-1, 1 1, -1

プレイの確率

ここで混合戦略について説明される。キーパーは左右均等な確率で守り、キッカーは左に  1/3、右に  2/3 の確率で蹴るとした場合、プレイの確率は下記の様になる。

キーパー\キッカー 左 (1/3) 右 (2/3)
左 (1/2) 1/6 2/6
右 (1/2) 1/6 2/6

それぞれのプレイヤーの期待利得は下記の様になる。

クールノー寡占市場

ここまでのゲームの例では、取りうる行動の数は2つ (有限個) だったが、経済学の多くのモデルでは価格や数量の決定が問題となるため、プレイヤーの取りうる行動は連続な変数となる。そういったゲームの例としてクールノー寡占市場が紹介されている。

企業1と企業2が同じ製品を生産して市場に供給しているとする。供給量をそれぞれ  q1,  q2 とする。製品の価格は市場全体で共通で  p とする。 p は市場の逆需要関数によって決まる。

 p = a - b (q1 + q2) \hspace {20pt} (a > 0, b> 0)

ここでaは価格の上限であり、bは製品の供給が1単位増加したときの価格の減少の大きさを表している。

f:id:mas178:20191226222022p:plain

企業 i~(i = 1, 2) が製品を1単位生産するための費用を  c_i とおく。但し、0 <  c_i < a。

このとき、企業iの利潤は  f_i (q_1, q_2) = p q_i - c_i q_i となる。製品価格  p は自社の供給量だけでなく、他社の供給量にも依存しているので、関数  f_i は引数として  q_1 q_2 をとる。この様に、2つの企業が製品の供給量を決定する市場モデルをクールノー寡占市場という。2つのプレイヤーの意思決定が相互に依存しあっているので、これもゲーム的状況の一つといえる。

ナッシュ均衡

企業2の供給量  q_2 に対する企業1の最適応答は企業1の利潤関数  f_1 (q_1, q_2) = p q_1 - c_1 q_1 を最大にする供給量である。

f:id:mas178:20191227231500p:plain

f:id:mas178:20191227231913p:plain

パレート最適な供給量

f:id:mas178:20191228221914p:plain

公共財の供給ゲーム

これは公共財ゲーム (public goods game) 実験 - 読書メモ で説明したゲームだ。このゲームが戦略形ゲームのモデルによってどの様に定式化されるかが説明されている。

ある町が公共の施設を建設する計画を持っている。公共施設の建設費用は住民からの寄付金で賄う。それぞれの住民は1000万円の年収があり、その内10万円を寄付金の上限とする。その町の人口は100名とする。各住民を  i~~~(i = 1, 2, \cdots, 100)、各住民の寄付金の額を  g_i万円、寄付金の合計金額を  G = g_1 + g_2 + \cdots + g_{100}、各住民が公共施設から得られる便益を  aG (a > 0) とおく。パラメータ a は寄付金が1単位増加するときの公共施設の便益の増分を表し、公共財の限界便益という。

このとき、住民iの便益は、

 f_i (g_1, g_2, \cdots, g_{100})

 = 10 - g_i + aG

 = 10 - g_i + a (g_1 + g_2 + \cdots + g_{100})

 = 10 + (a - 1) g_i + a (g_1 + \cdots + g_{i-1} + g_{i+1} +\cdots + g_{100})

で表される。

公共財の限界便益 a の大きさによって、住民 i の最適応答は次の様になる。

  • a > 1 の場合:  g_i = 10
  • a = 1 の場合:  0 \leq g_i \leq 10
  • a < 1 の場合:  g_i = 0

a = 0.1 の場合、全員が寄付しない場合、 f_i = 10 + (0.1 - 1) \times 0 + 0.1 \times 0 = 10となり、全員が1万円ずつ寄付すれば  f_i = 10 + (0.1 - 1) \times 1 + 0.1 \times 99 = 19 となるので、全員が寄付すれば良いと思うが、自分は寄付せずに自分以外の全員が1万円ずつ寄付すれば、 f_i = 10 + (0.1 - 1) \times 0 + 0.1 \times 99 = 19.9 となるので、他人には寄付してほしいが自分だけは寄付したくないというインセンティブが働いてしまう。

この様に、多くのプレイヤーが協力することは全体の利益になるが、一人ひとりのプレイヤーは自分だけは協力しないでタダ乗り (フリーライド) したいと思う状況を公共財の供給ゲームという。

パレート最適

寄付金の総額を  \displaystyle{
g = \sum_{i=1}^{100} g_i
} とおくと、全ての住民の利得の合計は、\displaystyle{
\sum_{i=1}^{100} f_i = 1000 + (100a - 1) g
} である。

 a > 0.01 の時、つまり  100a - 1 が正の時、全ての住民が10万円寄付すると全体の利得は最大になる。従って、戦略の組み合わせ  (10, \cdots, 10)パレート最適である。この時、住民一人あたりの利得は  1000a 万円である。つまり、ナッシュ均衡点はパレート最適ではない。

この様に、公共財の供給ゲームは囚人のジレンマと同じ構造を持つゲームである。

オークション

オークションも、他のプレイヤーの意思決定が自分の意思決定に影響を及ぼすという意味でゲームである。

オークションには下記のように様々なバリエーションがある。

  • 公開入札: 全ての参加者が入札価格を公開するオークション。
    • イングリッシュ・オークション: 主催者が設定した価格から入札者が徐々に価格を競り上げていって最高価格を提示したプレイヤーが商品の購入権を手に入れる。
    • ダッチ・オークション: 主催者が設定した価格から徐々に価格を下げていって、最初に購入の意志を示したプレイヤーが商品の購入権を手に入れる。
  • 封印入札: 全ての参加者が入札価格を公開しないオークション。
    • 第一価格ルール: 最高額を提示したプレイヤーが、その価格で商品を購入する権利を手に入れる。
    • 第二価格ルール: 最高額を提示したプレイヤーが、二番目に高い価格で商品を購入する権利を手に入れる。

第2価格封印入札は、どの様な意味で合理的なのか?

封印入札オークションで、最高額を提示したプレイヤーが最高額でその商品を購入するのなら分かるが、なぜわざわざ二番目に高い価格で商品を購入するという、一見胴元が損をする様なルールが存在するのだろうか?

それは、第2価格封印入札ルールにすると、オークションの参加者が素直に自分の評価額を提示するからだ。第1価格封印入札ルールにすると、提示価格が不当に高騰してしまう。落札額が高騰しすぎてしまうとマーケットが壊れてしまうので、それを避けたい場合は第2価格封印入札ルールにする。

定理4.3 第2価格封印入札では、参加者の商品に対する評価額が何であっても、評価額での入札は他の全ての入札額での入札を弱支配する。

確認してみよう。

入札者  i が商品を得るとき、利得は商品の評価額  x_i から購入額となる第2価格  p を差し引いた額  x_i - p である。入札に負けて商品を手に入れられないときの利得は  0 である。

  1.  x_i > p のとき
    • 戦略1.1. 評価額  x_i で入札すると、入札に勝ち、正の利得  x_i - p を得る。
    • 戦略1.2.  p より安い価格で入札すると、入札に負け、利得は  0 となる。
    • 戦略1.3. 価格  y_i (  p \leqq y_i \lt x_i ) で入札すると、入札には勝つが、利得は  y_i - p で「入札価格 - 第2価格」という意味で戦略1.1と同じ。
    • 戦略1.4. 価格  y_i (  x_i \lt y_i ) で入札すると、入札には勝つが、利得は  y_i - p で「入札価格 - 第2価格」という意味で戦略1.1と同じ。
  2.  x_i = p のとき
    • 戦略2.1. 評価額  x_i で入札すると、入札に勝つかどうかに関わらず、利得は  0 である。
    • 戦略2.2. 価格  y_i (  y_i \lt x_i ) で入札すると、入札に負け、利得は  0 である。
    • 戦略2.3. 価格  y_i (  x_i \lt y_i ) で入札すると、入札に勝ち、利得は  x_i - p = 0 である。
  3.  x_i \lt p のとき
    • 戦略3.1. 評価額  x_i で入札すると、入札に負け、利得は  0 である。
    • 戦略3.2. 価格  y_i (  y_i \lt p ) で入札すると、入札に負け、利得は  0 である。
    • 戦略3.3. 価格  y_i (  p \lt y_i ) で入札すると、入札には勝つが、負の利得  x_i - p を得ることになってしまう。

この様に、評価額での入札 (戦略1.1、戦略2.1、戦略3.1) が他の戦略を弱支配していることが分かる。

f:id:mas178:20191228155457p:plain

囚人のジレンマ

囚人1と囚人2がいる。二人共黙秘すると、双方の刑期は1年。一方が黙秘を続け、他方が自白した場合は、黙秘した方の刑期は10年となり、自白した方の刑期は3ヶ月となる。二人共自白してしまうと、双方の刑期は8年となる。

利得行列

上記の説明をまとめると下記の様になる。

囚人1 \ 囚人2 黙秘 自白
黙秘 1年, 1年 10年, 3ヶ月
自白 3ヶ月, 10年 8年, 8年

上記の刑期の表を序数的効用を用いて利得行列にすると下記の様になる。

囚人1 \ 囚人2 黙秘 自白
黙秘 5, 5 -4, 6
自白 6, -4 -3, -3

ナッシュ均衡点 (個人合理性)

双方にとって自白が支配戦略となるため、ナッシュ均衡点は (自白, 自白) となる。

この様に、自分の利得を合理的に計算して策定する戦略を個人合理的な戦略という。

パレート最適性 (集団合理性)

このゲームを客観的に見ると、双方が黙秘した方が双方にとって利得が高くなる。この様な戦略を集団合理的な戦略という。このゲームがジレンマと呼ばれるのは、個人合理性と集団合理性が相反するからである。

個人合理性はナッシュ均衡点によって表される。集団合理性を一般的に表すのは、パレート最適の概念である。戦略Aと戦略Bが存在し、戦略Aを選択すると戦略Bを選択するよりも、全てのプレイヤーにとって利得が大きいならば、戦略Aは戦略Bよりもパレート優位であるという。ある戦略の組がパレート最適であるとは、それよりパレート優位な戦略の組がない時をいう。

例えば、囚人のジレンマにおけるパレート最適な戦略の組み合わせは、(黙秘, 黙秘) (黙秘, 自白) (自白, 黙秘) である。

全てのプレイヤーの利得の合計を最大とする戦略の組は、パレート最適であるが、その逆、つまり、パレート最適な戦略の組が全てプレイヤーの利得の合計を最大にするとは限らない。

尚、ゼロ和 (定和) ゲームにおいては、一人のプレイヤーの利得が上がる時、他のプレイヤーの利得が下がるため、全ての戦略の組がパレート最適となる。

ジレンマの解決

囚人のジレンマの様に、個人合理性と集団合理性が相反し、個人の最適行動が社会全体としては望ましくない結果をもらたらす状況を、社会的ジレンマとも言う。

これまでの社会科学の文脈では、社会的ジレンマを解決する方法としては、国家による解決か市場による解決かの二者択一の方法が議論されることが多かったが、それぞれに限界がある。近年、当事者間での話し合いや交渉によって自発的に解決する可能性を探求することが重要な研究課題になったいる (エリノア・オストロムによる共有資源の自主管理の実証研究 => 9章〜10章)。

また、規範と罰だけで社会的ジレンマを解決しようとすると、高次のジレンマ問題 (メカニズムのジレンマ / 2次のジレンマ) にぶち当たるということは、こちらで説明している。