文献一覧: 【C】平成22年電気学会電子・情報・システム部門大会講演論文集 (雑誌)

1 0 0 0 分布Bellman方程式における動的計画法の収束性解析

著者: 森村哲郎杉山将鹿島久嗣八谷大岳田中利幸 Morimura Tetsuro Sugiyama Masashi Kashima Hisashi Hachiya Hirotaka Tanaka Toshiyuki
雑誌: 【C】平成22年電気学会電子・情報・システム部門大会講演論文集
巻号頁・発行日: pp.178-183, 2010-09-02

近年、分布Bellman方程式に基づくリターン(積算報酬)分布近似手法が提案され、リスク考慮型強化学習法としての有用性も示された。しかしながら、その収束性に関する解析は十分でない。そこで本報告では、動的計画法により分布Bellman方程式を解いた場合の収束性解析結果を記す。動的計画法により、リターンの初期近似分布に依存せず真のリターン分布に収束することや、真の分布のモーメントに収束する速度について報告する。

2015-07-23 12:15:22
1 + 0 Twitter

http://id.nii.ac.jp/1031/00040909/