著者
水谷 陽太 鶴岡 慶雅
雑誌
ゲームプログラミングワークショップ2018論文集
巻号頁・発行日
vol.2018, pp.72-79, 2018-11-09

近年,深層強化学習の分野において,モデルベース強化学習に関する研究が注目を集めている.環境モデルを学習することで先読みを行うことが可能となり,長期的な計画に基づく方策決定が可能となる.ビデオゲームなどの複雑な環境において,画像を観測として用いる場合,観測を直接予測するような環境モデルを学習するのには莫大な計算コストがかかる.そのため,画像を低次元のベクトル表現に変換し,その表現における次状態の予測をする学習を行う手法がいくつか提案されている.しかし既存の手法における中間表現は,強化学習の目的においては不要なデータを含んでいたり,事前学習を必要とするなど,一長一短であった.本論文では,タスク達成に有用な中間表現を学習すると同時に,その中間表現を用いて次状態予測の学習を行う新しいモデルベース強化学習のアーキテクチャを提案する.提案するアーキテクチャは,表現の獲得と次状態予測,方策決定の全てをend-to-end で効率的に学習ができ,比較的小さな計算コストで長期的な計画に基づく方策決定を行うことが可能である.実験により,ビデオゲームの深層強化学習において提案手法を用いることで効果的な学習を行えることを確認した.