著者
平岡 和幸 吉澤 修治
出版者
公益社団法人日本オペレーションズ・リサーチ学会
雑誌
Journal of the Operations Research Society of Japan (ISSN:04534514)
巻号頁・発行日
vol.41, no.4, pp.509-530, 1998-12

心理学において, 「慣れ」や「飽き」のように, 同じ選択を続けると効果が悪くなる現象を記述する, ロブ-パス問題と呼ばれるモデルがある. Abe and Takeuchiは, この問題をオンライン学習問題として定式化し, それがmulti-armed bandit問題の拡張とみなせる事を指摘した. 古典的なbandit問題との違いは, プレイヤーの選択が環境自体に影響を与え, 環境を変化させてしまうという点にある. 学習問題としてのロブ-パス問題に対してこれまでに提案された戦略は, すべて基本的に, 「未知環境からの反応をもとに, その環境に対する最適"定常"戦略を推定し, その戦略に従って選択肢を選ぶ」ということを繰り返すものである. また, 戦略の評価には, 環境が既知だった場合の最適"定常"戦略と比較して, 実際には環境が未知な事によるロスが, どの程度におさまるかを基準としている. このような方針が妥当かどうかを判断するためには, 環境が既知だった場合の(定常とは限らない)最適戦略を知っておく必要がある. 本論文はこれを導出する. その系として, 従来研究で仮定されていた「マッチング条件」が, 最適戦略が打ち切り時刻によらないための必要十分条件となっている事を指摘する. これにより, 目標として"定常"戦略のみを考えることの正当性が保証されることになる. マッチング条件自体の意味や妥当性に関する議論も行う. さらに, 漸近最適性を定義し, 忘却ありの相手なら定常戦略が漸近最適となるが, 忘却なしなら漸近最適戦略は存在しない事を示す.