著者
前田 康成 後藤文太朗 升井 洋志 桝井 文人 鈴木 正清
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.53, no.6, pp.1608-1616, 2012-06-15

従来からマルコフ決定過程(MDP)を用いたロールプレイングゲーム(RPG)のモデル化が行われている.従来研究ではRPGが部分的にモデル化されている.本研究では,MDPを用いてより一般的なRPGのモデル化を行う.最初にMDPの真のパラメータ既知の場合に相当するRPGについて,報酬の期待値を最大にするアルゴリズムを提案する.次にMDPの真のパラメータ未知の場合に相当するRPGについて,ベイズ基準のもとで報酬を最大にするアルゴリズムを提案する.次にMDPの真のパラメータ未知の場合に相当するRPGについて,学習データを用いて報酬を近似的に最大にするアルゴリズムを提案する.