著者
松嶋 達也 古田 拓毅 顧 世翔 松尾 豊
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第34回 (2020)
巻号頁・発行日
pp.2D5OS18b03, 2020 (Released:2020-06-19)

強化学習において,環境とオンラインに相互作用するコストの高い問題では,事前にデータセットを用意しておき方策を学習するオフライン強化学習が有望である.しかし,既存のオフライン強化学習手法は大きなデータセットに依存しているため,小さなデータセットを利用した場合,学習が不安定になるという問題を抱えている.オンラインの強化学習では,学習のサンプル効率を高める方法としてモデルベース強化学習が利用されているが,オフラインの問題設定に単純にダイナミクスモデルを組み込むだけでは性能を発揮できない.本研究では,モデルベース強化学習において,オフラインデータを利用して方策を学習する新たな手法を提案する.本提案手法は,ダイナミクスモデルのアンサンブルと,オフラインデータから推定した挙動方策とターゲット方策のダイバージェンスによる制約という2つの要素を併せ持つ.評価実験では,高次元連続制御のベンチマークを用いて,本提案手法がより小さなデータセットにおいても安定して方策を学習できることを示す.