著者
中屋敷 太一 金子 知適
雑誌
ゲームプログラミングワークショップ2019論文集
巻号頁・発行日
vol.2019, pp.86-93, 2019-11-01

AlphaZero は同一のアルゴリズムで強いプレイヤを作成できることを将棋,チェス,そして囲碁の3 つのゲームのそれぞれで示した.しかし AlphaZero の手法は,どのくらいの学習でどのくらい強くなるかなどを理論的に解析することは難しく,プレイヤ強さを測るには実験的に行うしかない.本稿ではAlphaZero の手法で学習を行ったニューラルネットワークがどの程度正しい判断をしているかを,すでに完全解析されたゲームであるどうぶつしょうぎを用いて,完全解析結果と比較し測定した.また異なる大きさのニューラルネットワークを用いて実験を行い,ニューラルネットワークの大きさによる影響を測定した.さらに完全解析結果を用いた教師あり学習も行い,ニューラルネットワークの大きさそのものによる性能比較も行った.最後に AlphaZero が指し手決定の際に用いている探索アルゴリズムである.Monte-Carlo Tree Search について,そのハイパーパラメータによる違いを簡単に調査した.実験の結果,教師あり学習の場合には大きいニューラルネットワークほどよい性能である一方で,AlphaZero の手法で用いる際には必ずしもそうではないことを示した.また Monte-Carlo Tree Search のハイパーパラメータによって探索の挙動が大きく変わることを示した.

言及状況

Twitter (2 users, 2 posts, 0 favorites)

Ultra super coooooooooooooooooooooool!!!!
どうぶつしょうぎを用いたAlphaZeroの手法の調査 中屋敷 太一. 金子 知適 https://t.co/KJn38kDsgF

収集済み URL リスト