著者
松嶋 達也 大澤 昇平 松尾 豊
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第32回全国大会(2018)
巻号頁・発行日
pp.3A101, 2018 (Released:2018-07-30)

近年,人工知能の活用による社会の生産性向上への期待が高まっている.この期待の背景として,深層学習が人工知能技術のブレイクスルーになったことが挙げられる.しかし,実世界環境で活用可能な人工知能の構築には,いくつかの課題が残されている.特に,観測が部分的であること,タスクに対する報酬の設計が難しいことの2 点が挙げられる. 部分的な観測を扱うニューラルネットワークのモデルとして,注意機構を持つモデルが提案されている.しかし,これらのモデルでは,注意機構の学習がタスクから定義される外的な報酬信号を用いた強化学習によって行われており,外部からの報酬信号が得られない問題設定下では注意機構の学習を行うことができない. 本研究では,注意機構の学習に外的な報酬を用いる代わりに,観測に対する予測の誤差を注意機構の内的な報酬として与え,観測の予測モデルと注意機構を敵対的な学習により訓練する手法を提案する.
著者
上條 達也 石本 幸暉 松嶋 達也 岩澤 有祐 松尾 豊
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第37回 (2023) (ISSN:27587347)
巻号頁・発行日
pp.2G1OS21c01, 2023 (Released:2023-07-10)

人間は環境の構造を理解し,複数モダリティからなる感覚器官からの情報を処理することで実世界で様々なスキルを獲得できる.人間のように多様なスキルを自律的に獲得できる知能ロボットの実現を目指す上で,複数モダリティからなるセンサ情報から世界モデルを学習し,モデルベース強化学習を行う手法は,自然なアプローチである.本稿では,ロボットアームのPick and Placeタスクにおいて,世界モデルに基づくモデルベース強化学習手法であるDreamerアルゴリズムを用いて,実ロボットアームの手先に触覚センサを取り付け,観測に用いることで,学習にかかる時間が短縮されることを検証する.また,実ロボットを用いて深層強化学習によりマニピュレーションタスクを学習させる際の学習環境について考察を行う.
著者
鈴木 雅大 金子 貴輝 谷口 尚平 松嶋 達也 松尾 豊
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第33回 (2019) (ISSN:27587347)
巻号頁・発行日
pp.1L2J1105, 2019 (Released:2019-06-01)

近年,深層生成モデルの研究は急速に進んでおり,それらを簡潔かつ汎用性高く実装できるフレームワークが求められる.本研究では,最新の複雑な深層生成モデルの特徴として,確率分布によるネットワークの隠蔽,および複数の誤差関数から目的関数が構成されているという2点に着目し,それらを達成する新たな深層生成モデルライブラリ,Pixyzを提案する.本論文では,提案ライブラリが簡単な深層生成モデルの実験において,既存の確率モデリング言語であるPyroよりも高速で動作することを示し,さらに既存の確率モデリングライブラリでは実装できない複雑な深層生成モデルについて,容易かつ簡潔に実装できることを示す.
著者
松嶋 達也 古田 拓毅 顧 世翔 松尾 豊
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第34回 (2020)
巻号頁・発行日
pp.2D5OS18b03, 2020 (Released:2020-06-19)

強化学習において,環境とオンラインに相互作用するコストの高い問題では,事前にデータセットを用意しておき方策を学習するオフライン強化学習が有望である.しかし,既存のオフライン強化学習手法は大きなデータセットに依存しているため,小さなデータセットを利用した場合,学習が不安定になるという問題を抱えている.オンラインの強化学習では,学習のサンプル効率を高める方法としてモデルベース強化学習が利用されているが,オフラインの問題設定に単純にダイナミクスモデルを組み込むだけでは性能を発揮できない.本研究では,モデルベース強化学習において,オフラインデータを利用して方策を学習する新たな手法を提案する.本提案手法は,ダイナミクスモデルのアンサンブルと,オフラインデータから推定した挙動方策とターゲット方策のダイバージェンスによる制約という2つの要素を併せ持つ.評価実験では,高次元連続制御のベンチマークを用いて,本提案手法がより小さなデータセットにおいても安定して方策を学習できることを示す.