著者
鮫島 和行 片桐 憲一 銅谷 賢治 川人 光男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.84, no.9, pp.2092-2106, 2001-09-01
被引用文献数
17

本研究では, 複数の予測モデルを用いた強化学習方式(MMRL)を提案する.MMRLでは, 制御対象の将来の状態を予測する予測モデルと, 制御出力を学習する強化学習コントローラを組としたモジュールが複数用意され, 各予測モデルの予測誤差のsoftmax関数により予測の正確なモジュールほど大きい値をもつ「責任信号」が算出される.各モジュールの学習と制御出力を責任信号によって重みづけることにより異なる状況に対応したモジュールが形成される.MMRLでのモジュール数や担当領域などの事前知識なしにロバストなモジュール化を実現するために, 空間・時間的な連続性の仮定による事前責任信号の定式化する.また, MMRLの効率的な実装法として複数の線形予測・2次報酬モデルによる最適コントローラ(MLQC)の定式化を行う.MLQCの性能の確認を行うため単振子を用いた振上げのシミュレーションを行う.単振子のつり下がり付近と倒立点付近の局所線形予測モデルとそれに対応するコントローラが学習により獲得され, 従来手法よりも高速にタスクが学習可能であり, またモジュールの冗長性にも対応可能なことを示す.