著者
松野 陽一郎 山崎 達也 松田 潤 石井 信
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NC, ニューロコンピューティング (ISSN:09135685)
巻号頁・発行日
vol.100, no.688, pp.91-98, 2001-03-16

本研究では, マルチエージェント競合系の例としてカードゲームであるハーツを取り上げ, Actor-Cmicアルゴリズムと先読みを用いた強化学習法を提案する. この系では, 部分観測マルコフ決定過程における強化学習を取り扱わねばならない. 提案手法では, ゲームを序盤, 中盤, 終盤の3つの局面に分割し, それぞれの局面でActorを切り換えて行動制御と学習を行う. 中盤においては, 期待TD誤差に基づく先読みを用いた行動選択を行う. この際, Criticによって近似された状態評価関数と相手戦略から推定した状態遷移確率を用いて期待TD誤差を計算することで部分観測性に対処する. 本手法の有効性を計算機シミュレーション実験により確認した.