- 著者
-
秋山 晴彦
小谷 善行
- 雑誌
- 研究報告ゲーム情報学(GI)
- 巻号頁・発行日
- vol.2012, no.10, pp.1-6, 2012-02-24
ゲームにおけるモンテカルロベースの着手選択手法において,勝率が偏る局面で適切な着手選択ができない問題がある.この問題の対処策として,スコアから擬似勝率を計算する手法を提案する.勝敗を,0 を閾値としてスコアから算出される値とみなし,この閾値を動的調整する.勝敗を評価とする通常のモンテカルロ手法では勝率を,スコアを評価とするモンテカルロ手法では平均や最大スコアを最大化するが,提案手法では局面同士の差がつく最低限の閾値変更を行った後の勝率を最大化する.実験の結果,本手法を導入した UCB は通常の UCB に対して勝率 0.58 で勝ち越した.また深さ 2 の αβ 探索との対戦の勝率が通常 UCB の 0.37 から 0.48 に向上し,本手法の有効性を確認した.Monte-Carlo based methods in games have a problem that they cannot select the best move in the position with biased winning percentage. In order to solve this problem, we propose the method to calculate the pseudo winning percentage from a score. We regarded the victory and the defeat as the value computed from a score when a threshold value is 0, and dynamic adjustment of this threshold value is carried out. The normal Monte-Carlo method maximizes the winning percentage, and the Monte-Carlo method which uses score of the game for evaluation maximizes the average score. In contrast, the winning percentage with the minimum change of the threshold value that is comparable each other is maximized in the proposal method. As a result, the winning percentage of UCB player with this method against normal UCB player was 0.58, and the winning percentage against αβ search player of the depth 2 was also improved by 0.48 from 0.37.