著者
金澤 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.57, no.11, pp.2382-2391, 2016-11-15

厳密解を求めるのが困難でヒューリスティクスによって解かれている問題で,計算機が熟練者を上回ることが困難なものが存在する.そのような問題において,ヒューリスティクス手法を多数のパラメータで制御できるようにしておき,そのパラメータを機械学習によりチューニングすることで,熟練者の判断を再現できれば,解法の性能向上が期待できる.そのために解決しなければならない課題の1つが,教師データの不足である.本論文では,教師データが不足した環境で学習結果に含まれる誤りを改善する強化学習類似手法を提案する.提案手法を将棋プログラムBonanza 6.0の機械学習テーブル改善に適用し,1回の適用でイロレーティングが平均25程度,繰り返し適用することで,最終的には150程度向上した.