著者
岡田 雅司 谷口 忠大
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第36回 (2022) (ISSN:27587347)
巻号頁・発行日
pp.2M1OS19a01, 2022 (Released:2022-07-11)

本稿では、世界モデルに基づく強化学習であるDreamerV2とDreamingを拡張したDreamingV2を提案する。DreamerV2は潜在状態をカテゴリ変数で表現する離散世界モデルを用いた強化学習手法である。またDreamingは、対照学習により、一般的な世界モデル学習におけるオートエンコーディング(再構成)の過程を用いない強化学習手法である。提案するDreamingV2は、DreamingV2の離散状態表現とDreamingの再構成不要な世界モデル学習の両者を採用した手法である。5つのロボットアームのタスクのシミュレーション実験において、DreamingV2はDreamerV2および最新の世界モデルを上回る性能を達成した。DreamingV2は実世界の不連続的なダイナミクスを離散表現で適切に表現でき、また実世界の複雑な画像観測の再構成を不要とすることから、DreamingV2はロボット強化学習の有効な手段であると考えられる。