著者
成田 穂 木村 大毅
出版者
人工知能学会
雑誌
2019年度 人工知能学会全国大会(第33回)
巻号頁・発行日
2019-04-08

AlphaZeroに代表されるようなモンテカルロ木探索と深層強化学習の組み合わせにより、素晴らしい高い性能が達成されているが、その計算コストは高く、また長い計算時間がかかるという問題点がある。本研究では、MCTSをベースとして、「失敗度」の概念を取り入れたアルゴリズムを提案する。失敗度は効率的な探索を可能にし、学習時間を削減する。これにより、エージェントは勝敗を分ける重要な局面を重点的に探索することが可能になる。我々の手法は最初の数イテレーションでAlphaZeroを超える性能を示した。

言及状況

Twitter (2 users, 2 posts, 0 favorites)

あまりうまくいかなかった模様。最善進行ばかり目指してると、そうでない進行になったときに失敗しやすくなるんじゃないかな~、とか思う。 ― 「待った」の概念を取り入れた効率的なオセロの学習 https://t.co/s3zZcqw1Ng
強化学習部分抜きのMCTS単体での棋力の変化どんなもんなんだろう "「待った」の概念を取り入れた効率的なオセロの学習" https://t.co/73fQiSh8bD

収集済み URL リスト