- 著者
-
出村 洋介
金子 知適
- 雑誌
- ゲームプログラミングワークショップ2023論文集
- 巻号頁・発行日
- vol.2023, pp.111-118, 2023-11-10
経験の多様性と不偏性は強化学習エージェントの性能や頑健性を向上させるが,大きな計算コストなしにそれを実現するのは困難な場合がある.多くのチェスライクゲームやオセロなどでは,初期状態(初期局面の駒配置等)が固定されていて 1 通りしかないため,AlphaZero スタイルの強化学習を行う場合,エージェントは似たようなエピソードや棋譜を経験しがちである.本論文では,この課題に対応するため,将棋の初期局面を拡張した「将棋 81 万」を提案し,将棋における有効性を実験的に評価する.「将棋 81 万」は,チェス 960 [1] と同様に駒の初期配置を一定の制約のもとでランダムにシャッフルして作成された将棋の初期局面集である.我々は,Gumbel AlphaZero の手法で 1000 万局の自己対局を行って様々なエージェントを訓練する実験を行い,最初に将棋 81 万で事前学習を行った後に通常の将棋に適応学習させたエージェントは,通常の将棋のみで訓練したエージェントよりも人間の対局で見られる様々な戦型において平均的パフォーマンスや頑健性が向上することを示した.