- 著者
-
五十嵐 治一
森岡 祐一
山本 一将
- 雑誌
- 研究報告ゲーム情報学(GI)
- 巻号頁・発行日
- vol.2013-GI-30, no.6, pp.1-8, 2013-06-21
本論文では強化学習の一手法である方策勾配法をコンピュータ将棋に適用する方法を考察した.方策勾配法は,報酬や方策にマルコフ性の制限なく自由に設計することができるという大きなメリットがある.本論文では,最初に全 leaf 局面の局面評価値をその局面への遷移確率値で重み付けた期待値を用いた指し手評価方式を提案する.これをベースに,探索木の各ノードにおける指し手の選択法として Boltzmann 分布に基づくソフトマックス戦略を採用した場合の局面評価関数に含まれるパラメータの学習則を導出した.しかし,探索や学習時の計算量が膨大となるため,3 つの近似計算法を考案した.次に,探索時にシミュレーション方策を用いてモンテカルロ探索を行う場合や,探索の深さを制御する場合のために,局面評価関数とシミュレーション方策の両者を同時に学習する学習則を方策勾配法により導出した.さらに,この方策勾配の計算法を利用すると,局面ごとに正解手が既知の場合の教師付学習も可能であることを示し,実際に学習則を導出した.