- 著者
-
小松 智希
成澤 和志
篠原 歩
- 雑誌
- 研究報告ゲーム情報学(GI)
- 巻号頁・発行日
- vol.2012, no.8, pp.1-8, 2012-07-06
探索空間が非常に広く,評価関数が作りにくいゲームにおいて行動決定を行う手法にモンテカルロ法があり,囲碁や大貧民などのゲームに対して有効な手法であることがわかってきた.しかし,麻雀のように探索空間全体に対して得点が得られる組み合わせが少ないゲームでは,モンテカルロ法は報酬を得ることができるプレイアウトの回数が少ないため,十分な効果を発揮することができない.本論文では,麻雀におけるモンテカルロ法の非効率性を実験的に検証する.また,プレイアウトにおいて効率的に報酬を得ることができる手法を提案し,モンテカルロ法と比較することで実験的に有効性を示す.Monte Carlo methods have been successfully applied for playing games, and have outperformed previous algorithm in such games as Go and Daihinmin. However, as we will experimentally show, it is not very effective for some games like Mahjong, where random simulation can rarely get rewards. Without positive rewards, players have little reason to choose better actions. In this paper, we propose a new algorithm to overcome this difficulty. It virtually simulates many play-outs in each trial simultaneously, so that many of play-outs can get positive rewards, even for this kind of games. We show some preliminary experiments that convinced us that the approach is promising.