著者
西 智樹 大滝 啓介 吉村 貴克
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第32回全国大会(2018)
巻号頁・発行日
pp.3Pin105, 2018 (Released:2018-07-30)

線形可解マルコフ決定過程(L-MDP)は効率的に政策を学習することができるマルコフ決定過程のサブクラスの一つである.これまでL-MDPのための離散行動空間におけるバッチ強化学習は提案されておらず,交通信号機制御などの行動が離散的に表現される問題に対して適用することができなかった.そこで我々は予め収集したデータから状態価値関数と次状態における状態価値の予測モデルの学習を通して,より良い政策を探索する離散行動空間におけるL-MDPのためのバッチ強化学習を提案する.我々はよく知られた交通シミュレータであるSUMOを用いて1交差点での交通信号機制御により提案法の評価を行った.実験結果から提案法は予め収集したデータのみからQ学習に比べ効率的に政策を学習することができることが分かった.