読書メモ

個人的な読書メモ。それ以上でも以下でもありません。

ゲーム理論・入門 新版 (岡田章) 第06章 ダイナミックなゲーム

ゲーム理論 新版 が難しすぎたので、ゲーム理論・入門 新版--人間社会の理解のために (有斐閣アルマ) から読むことにした。

ゲーム理論・入門 新版--人間社会の理解のために (有斐閣アルマ)

ゲーム理論・入門 新版--人間社会の理解のために (有斐閣アルマ)

  • 作者:岡田 章
  • 出版社/メーカー: 有斐閣
  • 発売日: 2014/09/18
  • メディア: 単行本(ソフトカバー)

「第06章 ダイナミックなゲーム」では時間の推移とともに進むゲーム (ダイナミックなゲーム / 展開形ゲーム) と、その均衡点の求め方について説明している。

基本概念: ゲームの木 (game tree) / 枝 (edge) / 点 (node) / パス / 履歴 / プレイ

3章〜5章で見た戦略形ゲームは全てプレイヤーが互いの戦略を知らずに同時に意思決定する同時手番ゲームだった。現実社会の多くのゲーム的状況では、時間の推移とともに逐次的に、相手の行動を踏まえて意思決定を行う。こういったゲームをダイナミックなゲーム (dynamic game)展開形ゲーム (game for extensive form) と呼ぶ。また、プレイヤーが逐次的に行動を選択するゲームを逐次手番ゲームという。

展開形ゲームは下記のようなゲームの木によって表現される。

f:id:mas178:20191230132050p:plain

がプレイヤーの行動を表し、枝が分かれる分岐点が意思決定ポイントを表す。初期点Oから任意の点xまでの系列を点xへのパス、または点xまでの履歴という。特に初期点Oから1つの終点までのパスをゲームのプレイという。

また、意思決定が離散的ではなく連続変数で選択される場合は下記の様に円弧によってそれを表現することもできるが、決まった描き方があるわけではない。

f:id:mas178:20191230133248p:plain

また、分岐点の中には、プレイヤーの意思決定によるものではなく、偶然手番 (chance move) と呼ばれる、プレイヤーとは無関係に確率的に枝が選択されるものもある。

先読み推論 (後向き帰納法 (backward induction)) で展開型ゲームを解く

ゲームの終点に一番近い手番から順々にプレイヤーの最適行動を求めることによって、展開形ゲームを解くことができる。この計算方法を先読み推論後向き帰納法と呼ぶ。

例1: チェーンストアゲーム

下記のような game tree で表現されるチェーンストアゲームを考える。

f:id:mas178:20191230134658p:plain

このゲームは下記の様な手順で解く。

  1. 終点に一番近い手、つまり 協調 or 対立 の意思決定ポイントにおいて、プレイヤー2の利得を最大にする手は「協調」である (2 > 0)。
  2. 「協調」によって得られるプレイヤー1の利得 = 2 とプレイヤー2の利得 = 2 を「参入する」の利得とみなす。
  3. 参入する or 参入する の意思決定ポイントにおいて、プレイヤー1の利得を最大にする手は「参入する」である (2 > 1)。
  4. よって「投資家: 参入する -> チェーンストア: 協調」という解が得られ、双方が手にする利得は 2 となる。

例2: レディファーストのゲーム (先手有利なゲーム)

もう一つの例として、下記のような game tree で表現されるレディファーストのゲームを考える。これは、3〜5章で見た男女の争いの展開形ゲーム版である。

f:id:mas178:20191230135956p:plain

例1のチェーンストアゲームと同様に後向き帰納法で解いて「女: バレエ -> 男: バレエ」という解が得られる。このゲームは先手が有利な構造になっている。この様に先手によって、後手の意思決定をコントロールできる場合における先手をコミットメントという。中央銀行が金融政策を事前にアナウンスすることによって、経済を望む方向にコントロールしようとすることを政策のアナウンス効果というが、これもコミットメントの一例である。

また、後手が有利なゲーム構造の例としては「じゃんけん」がある。

例3: 最後通告ゲーム (連続変数による意思決定)

行動が連続変数で定義される最後通告ゲームも、下記のように後向き帰納法で解くことができる。説明を簡単にするために、xは自然数であるとする。

f:id:mas178:20191230133248p:plain

  1. 拒否 or 受諾の意思決定ポイントにおいて、応答者は x が 0 よりも少しでも多ければ受諾を選択する。つまり、x = 1 を提案されても応答者は受諾する。
  2. 提案者は応答者の行動を先読みして x=1 を提案する。
  3. よってこのゲームの解は x = 1 となり、提案者の利得は 99、応答者の利得は1となる。

尚、上記はあくまで理論解である。実際に提案者がこの様な意思決定をしてしまうと、応答者は不公平感を感じ、理論解のようには振る舞わない。現実の人間がどの様に振る舞うかは、こちらで説明している。

意思決定時にプレイヤーがアクセス可能な情報が何であるかを、情報集合によって表現する

逐次手番ゲームはゲームの木によって表されるが、逐次手番ゲーム以外、例えば戦略形ゲームもゲームの木によって表すことができる。

ペナルティキック男女の争いの様な同時手番ゲームをゲームの木で表してしまうと、どちらを先手とするかによってゲームの結果が変わってしまうのではないか?

これを回避するために、情報集合という概念を導入する。

下記の2つのゲームは、左が同時手番ゲームを表し、右が逐次手番ゲームであり、赤枠が情報集合を表している。

f:id:mas178:20191230150033p:plain

左のゲームの様に、プレイヤー2の2つの意思決定ポイントが1つの情報集合に含まれているということは、プレイヤー2はプレイヤー1がどの様な意思決定をしたか/するかを知らないことを意味している。

右のゲームの様に、男性の2つの意思決定ポイントが別々の情報集合に含まれているということは、男性は女性がどの様な意思決定をしたかを知っていることを意味している。

一般化すると、プレイヤーはどの情報集合の中にいるかを知っているが、情報集合の中のどの分岐点にいるかは知らないということになる。

情報集合はプレイヤーの全ての手番の集合を互いに交わらない部分集合に分割する。プレイヤーの情報集合の集まりを情報分割または情報構造という。

レディファーストゲームの様に、プレイヤーの全ての情報集合が1つの手番からなるゲームを完全情報ゲームという。完全情報ゲームということは、全てのプレイヤーは意思決定に際してプレイ履歴を完全に知っていることを意味している。

一方、完全情報ゲームでないゲームには2つ以上の手番を含む情報集合が存在する。これを不完全情報ゲームという。不完全情報ゲームということは、プレイヤーはプレイ履歴を不完全にしか知らない状態で意思決定することを意味している。

完全情報ゲームと混同しがちなゲームとして、完全記憶ゲームがある。完全情報ゲームが全てのプレイヤーが全てのプレイヤーの履歴を知っているゲームであるのに対して、完全記憶ゲームは全てのプレイヤーが自分の履歴を知っている (記憶している) ゲームである。

展開形ゲームにおける戦略の概念

戦略形ゲームにおいては戦略と行動という概念をあまり厳密に区別する必要性はなかったが、展開形ゲームにおいては両者を明確に区別する必要がある。まず、展開形ゲームにおける「行動」とはゲームの木の枝を指す。そして「戦略」とは、それぞれの情報集合でどの行動をとるかを指定する行動計画のことである。正確には、それぞれの情報集合に対して選択すべき行動を対応させる関数のことである。

展開形ゲームでも、戦略形ゲームと同様に確率を用いない戦略を純戦略と呼ぶが、確率を用いて行動を選択する戦略のことは、混合戦略とは呼ばず行動戦略と呼ぶ。

部分ゲーム完全均衡点

展開形ゲームのナッシュ均衡

チェーンストアゲームを例に、展開形ゲームにおけるナッシュ均衡点を考える。

f:id:mas178:20191230134658p:plain

ナッシュ均衡点の定義は、全てのプレイヤーが相手の戦略に対して最適応答を取っている戦略の組、もしくは、自分だけが戦略を変更しても利得を増加できない戦略の組だった。

この定義に照らし合わせて考えると、チェーンストアゲームのナッシュ均衡点は (参入する, 協調) と (参入しない, 対立) である。

(参入する, 協調) は後向き帰納法で導出した解だが、実は (参入しない, 対立) もナッシュ均衡点である。確認してみよう。投資家だけが戦略を変更した場合、(参入する, 対立) となり、利得は増えない。また、チェーンストアだけが戦略を変更した場合も、(参入しない, 協調) となり、利得は増えない。この様に、上記のナッシュ均衡点の定義に忠実に従えば、(参入しない, 対立) もナッシュ均衡点の一つであると言える。

ところで、(参入しない, 対立) という戦略の組はおかしくないだろうか?投資家が「参入しない」という意思決定をした場合、チェーンストアは協調 / 対立の意思決定をするチャンスがない。この (参入しない, 対立) という戦略の組は何を意味しているのだろうか?ここでの「対立」は、もし投資家が意思決定を変更して「参入する」とした場合に、チェーンストアは「対立」を選択するという一種の「脅し」の役割をもつという考え方がありうる。

しかしゼルテンは、この「脅し」を「信憑性のない脅し」であると考えた。なぜなら、実際に投資家が「参入する」場合、チェーンストアの最適な行動は「協調」であり、「対立」することは、利潤最大化に矛盾する。ゼルテンはこの様な「信憑性のない脅し」を含むナッシュ均衡点を不完全均衡点と呼び、展開形ゲームの解として適切でないと考えた。これに対して、先読み推論で求められるナッシュ均衡点は、「信憑性のない脅し」を含まないので、この様なナッシュ均衡点を完全均衡点と呼び、完全均衡点のみを展開形ゲームの解とした。

部分ゲームと完全均衡点

  • 元のゲームの木の一部分であり、それ自身も展開形ゲームの要素を全て備えているものを、元のゲームの部分ゲームという。
  • 部分ゲーム完全均衡点とは、ゲームの全ての部分ゲーム (全体のゲーム自身も含む) にナッシュ均衡点を導く行動戦略の組のことである。
  • 後向き帰納法による先読み推論で求められるナッシュ均衡点は、常に部分ゲーム完全均衡点である。

定理6.1 有限の長さを持つ完全情報  n 人ゲームでは、先読み推論によって定まるプレイヤーの戦略の組は部分ゲーム完全均衡点である。

定理6.2 有限の長さをもつ完全情報  n 人ゲームでは、純戦略による部分ゲーム完全均衡点が少なくもと1つ存在する。