著者
五十嵐 治一 森岡 祐一 山本 一将
雑誌
研究報告ゲーム情報学(GI)
巻号頁・発行日
vol.2013-GI-30, no.6, pp.1-8, 2013-06-21

本論文では強化学習の一手法である方策勾配法をコンピュータ将棋に適用する方法を考察した.方策勾配法は,報酬や方策にマルコフ性の制限なく自由に設計することができるという大きなメリットがある.本論文では,最初に全 leaf 局面の局面評価値をその局面への遷移確率値で重み付けた期待値を用いた指し手評価方式を提案する.これをベースに,探索木の各ノードにおける指し手の選択法として Boltzmann 分布に基づくソフトマックス戦略を採用した場合の局面評価関数に含まれるパラメータの学習則を導出した.しかし,探索や学習時の計算量が膨大となるため,3 つの近似計算法を考案した.次に,探索時にシミュレーション方策を用いてモンテカルロ探索を行う場合や,探索の深さを制御する場合のために,局面評価関数とシミュレーション方策の両者を同時に学習する学習則を方策勾配法により導出した.さらに,この方策勾配の計算法を利用すると,局面ごとに正解手が既知の場合の教師付学習も可能であることを示し,実際に学習則を導出した.
著者
五十嵐 治一 森岡 祐一 山本 一将
雑誌
ゲームプログラミングワークショップ2014論文集
巻号頁・発行日
vol.2014, pp.90-94, 2014-10-31

コンピュータ将棋において探索木の枝を成長させる際に,その枝までの探索経路に沿った指し手の累積的な選択確率の値を基に探索制御を行う方法を提案する.このときの指し手の選択には,将棋の指し手に関するヒューリスティクスを組み込んだシミュレーション方策を使用する.この際,枝成長を決定論的に行う場合と確率的に行う2つの場合を考えた.さらに,本手法ではこのシミュレーション方策中のパラメータを強化学習の一手法である方策勾配法により学習する.
著者
原 悠一 五十嵐 治一 森岡 祐一 山本 一将
雑誌
ゲームプログラミングワークショップ2016論文集
巻号頁・発行日
vol.2016, pp.108-111, 2016-10-28

ソフトマックス戦略に基づくシンプルな探索方式を提案し,コンピュータ将棋へ適用した実験結果を報告する.本探索方式では探索木中のノードの評価値は子ノードの評価値を選択確率で重み付けした期待値であり,再帰的に定義される.選択確率は選択先のノードの評価値を目的関数とするボルツマン分布を用いる.探索は実現確率を良さの度合いとする最良優先探索であり,深さの制御には実現確率の閾値を用いた反復深化を用いる.各ノードへの実現確率はルートノードからの選択確率の積で定義する.したがって,将棋の有効な指し手に関するヒューリスティクスは使用せず,最終的には局面評価関数だけに依存する.本発表ではこの探索方式の詳細と評価実験の結果を報告する.