著者
関 栄二 三輪 誠 鶴岡 慶雅 近山 隆
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.53, no.11, pp.2533-2543, 2012-11-15

モンテカルロ木探索(MCTS)の登場により,コンピュータ囲碁プレイヤの棋力は大幅に向上した.こうした成功を受け,静的評価関数とアルファベータ木探索による従来の手法が成功を収めてきた将棋においても,モンテカルロ法の適用が模索されている.MCTSの改良は,モンテカルロ木の扱いに関するものと,プレイアウトの方策に関するものに大別される.本稿では後者に着目し,モンテカルロ将棋の方策の学習に,囲碁で成功を収めているシミュレーション・バランシングを適用することを提案する.実際に,3,000局面でのバランシング方策の学習を行った.対戦実験による評価の結果,提案手法の特に序中盤での有用性を示すことができた.また,バランシングを適用するうえで,詰み付近の局面における将棋特有の課題を解析し,プレイアウトに詰み探索を導入することで一定の改善が行えることを示した.Since the advent of Monte-Carlo tree search (MCTS), strong computer players using Monte-Carlo methods have been built for the game of go. Following these successes, application of the methods has been explored to the game of shogi for which conventional methods have also been successful. Improvement efforts of MCTS can be roughly classified into two: the way to deal with Monte-Carlo tree and the simulation policy. In this paper, we propose to apply simulation balancing that has succeeded in go to learn the policy of Monte-Carlo shogi players. We use this learning method with 3,000 positions and evaluate the performance. The proposed method is found to be effective in opening and middle game. Then, we analyze a problem unique to shogi endgames and alleviate it by performing checkmate search in playout.