- 著者
-
但馬 康宏
- 雑誌
- 研究報告ゲーム情報学(GI)
- 巻号頁・発行日
- vol.2010-GI-24, no.8, pp.1-7, 2010-06-18
ゲームの評価関数を強化学習を用いて獲得する場合,一般的には終了局面における勝敗を報酬とし,途中局面の報酬を 0 とする手法が知られている.本研究では途中局面に対する報酬をその局面におけるランダムシミュレーションの勝率とし,終了局面における勝敗の報酬の大きさを変化させた場合の違いを検証する.さらにオセロゲーム Zebra において利用されている盤面パターンの評価重みを本手法により学習し,実験的評価とする.