著者
中屋敷 太一 金子 知適
雑誌
ゲームプログラミングワークショップ2018論文集
巻号頁・発行日
vol.2018, pp.1-8, 2018-11-09

近年コンピュータ将棋プログラムは対局で人間のプロ棋士に勝利し,棋力は人間のプロ棋士を超えたと言われている.一方で,将棋プログラムによる将棋の局面の解説は,局面の勝率予測や次の指し手の予想ではある程度成功しているものの,それが何を根拠に決定されたかという内容を説明する手法はまだ確立されていない.もし将棋プログラムの判断の根拠を,プログラムが自動で,プログラムの利用者に説明することができれば,人間の棋力向上のサポートなどに用いることができ有用である.本稿では,画像分類を行うニューラルネットワークに対して考案された顕著性抽出手法を,将棋プログラムに用いられているニューラルネットワークに適用した.また,顕著性抽出手法は元の画像のどの部分に注目して判断したのかを可視化する技術であるが,可視化する際にいくつかの手法が考えられるため,本稿ではそれらの手法の差異を検討した.
著者
山下 修平 金子 知適 中屋敷 太一
雑誌
ゲームプログラミングワークショップ2022論文集
巻号頁・発行日
vol.2022, pp.1-8, 2022-11-04

1 人用ゲーム2048 は強化学習手法の性能の評価の題材として適している.これまで行われてきた得点による評価に加えて,最適方策との比較を定量的に行えるとより良い.そこで本研究では2048 を3 × 3 盤面に縮小したゲームであるミニ2048 を考案した.ミニ2048 はオリジナルの2048 の興味深い性質を受け継ぎつつ,盤面の小ささから完全解析を行うことができる.完全解析ではミニ2048 の状態数,最適方策に従ったときに得られる得点などの指標に加えて遷移モデルを少し変更したときの変化についても調査する.さらにミニ2048 においてStochastic MuZero を簡略化した手法でエージェントを学習させ,その性能を最適方策との一致率で評価した.最後に最善手と最悪手の期待得点の差が大きい盤面を集中的に学習することがエージェントの学習に重要なことを示した.
著者
中屋敷 太一 金子 知適
雑誌
ゲームプログラミングワークショップ2019論文集
巻号頁・発行日
vol.2019, pp.86-93, 2019-11-01

AlphaZero は同一のアルゴリズムで強いプレイヤを作成できることを将棋,チェス,そして囲碁の3 つのゲームのそれぞれで示した.しかし AlphaZero の手法は,どのくらいの学習でどのくらい強くなるかなどを理論的に解析することは難しく,プレイヤ強さを測るには実験的に行うしかない.本稿ではAlphaZero の手法で学習を行ったニューラルネットワークがどの程度正しい判断をしているかを,すでに完全解析されたゲームであるどうぶつしょうぎを用いて,完全解析結果と比較し測定した.また異なる大きさのニューラルネットワークを用いて実験を行い,ニューラルネットワークの大きさによる影響を測定した.さらに完全解析結果を用いた教師あり学習も行い,ニューラルネットワークの大きさそのものによる性能比較も行った.最後に AlphaZero が指し手決定の際に用いている探索アルゴリズムである.Monte-Carlo Tree Search について,そのハイパーパラメータによる違いを簡単に調査した.実験の結果,教師あり学習の場合には大きいニューラルネットワークほどよい性能である一方で,AlphaZero の手法で用いる際には必ずしもそうではないことを示した.また Monte-Carlo Tree Search のハイパーパラメータによって探索の挙動が大きく変わることを示した.