- 著者
-
山下 宏
- 雑誌
- ゲームプログラミングワークショップ2021論文集
- 巻号頁・発行日
- vol.2021, pp.20-27, 2021-11-06
将棋の駒落ちを人間の知識なしでゼロから深層強化学習した。6 種類の駒落ち (香落、角落、飛落、2 枚落、4 枚落、6 枚落) と平手、の合計 7 種類を同時に学習し、勝率は 5 割になるように下手 (先手) の強さを自動調節した。980 万棋譜を自己対戦で作成した結果、平手から 6 枚落ちまで、上手、下手、どちらを持っても高段者レベルの着手を返す AI ができた。