著者
塩谷 碩彬 那須野 薫 松尾 豊
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第31回 (2017)
巻号頁・発行日
pp.2B14, 2017 (Released:2018-07-30)

深層強化学習は学習に多くの試行回数を必要とする。この問題を緩和する方法としてモデルベース強化学習があり、さらにモデルフリーの強化学習を組み合わせることで環境のモデルによる方策への制約を緩和しようという試みがある。本研究ではモデルベース学習を活用してモデルフリーの深層強化学習の手法であるDeep Deterministic Policy Gradientのサンプル効率が改善されるか否かを分析する。
著者
塩谷 碩彬 那須野 薫 松尾 豊
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.31, 2017

深層強化学習は学習に多くの試行回数を必要とする。この問題を緩和する方法としてモデルベース強化学習があり、さらにモデルフリーの強化学習を組み合わせることで環境のモデルによる方策への制約を緩和しようという試みがある。本研究ではモデルベース学習を活用してモデルフリーの深層強化学習の手法であるDeep Deterministic Policy Gradientのサンプル効率が改善されるか否かを分析する。