- 著者
-
山下 修平
金子 知適
中屋敷 太一
- 雑誌
- ゲームプログラミングワークショップ2022論文集
- 巻号頁・発行日
- vol.2022, pp.1-8, 2022-11-04
1 人用ゲーム2048 は強化学習手法の性能の評価の題材として適している.これまで行われてきた得点による評価に加えて,最適方策との比較を定量的に行えるとより良い.そこで本研究では2048 を3 × 3 盤面に縮小したゲームであるミニ2048 を考案した.ミニ2048 はオリジナルの2048 の興味深い性質を受け継ぎつつ,盤面の小ささから完全解析を行うことができる.完全解析ではミニ2048 の状態数,最適方策に従ったときに得られる得点などの指標に加えて遷移モデルを少し変更したときの変化についても調査する.さらにミニ2048 においてStochastic MuZero を簡略化した手法でエージェントを学習させ,その性能を最適方策との一致率で評価した.最後に最善手と最悪手の期待得点の差が大きい盤面を集中的に学習することがエージェントの学習に重要なことを示した.