- 著者
-
嶽 俊太郎
金子 知適
- 雑誌
- ゲームプログラミングワークショップ2017論文集
- 巻号頁・発行日
- vol.2017, pp.250-257, 2017-11-03
ゲームAI分野において,自己対戦により強化学習を行って評価関数を作成する手法は,AlphaGoに代表されるように大きな成功を収めてきた. しかし,強化学習で学習した評価関数は,当然のことながら最適価値関数とは限らず,また最適価値関数からどの程度離れているかもわからない. この研究では、強化学習により学習した評価関数が、最適評価関数と比べてどの程度精度の面で離れているか一定の判断基準を与えることを目的とする. 実験は最適評価関数が解析されているどうぶつしょうぎを用いて行う. 完全解析データにノイズを加えて学習させた評価関数を強化学習による評価関数と見立て,これと最適評価関数との精度を比較をする. 実験から,評価関数のモデルの種類によっては40%のノイズを加えても精度があまり落ちず,想定していたよりもノイズに対して頑丈であることを示す結果が得られた. また,より高度なモデルの方がノイズの影響を受けやすいことを示唆する結果も得られた. この結果は,より高度で正確な評価関数を作成・学習させるには,学習データの精度もより正確でなければならないということ指し示していると考えることができる.