著者
森村 哲郎 杉山 将 鹿島 久嗣 八谷大岳 田中 利幸 Morimura Tetsuro Sugiyama Masashi Kashima Hisashi Hachiya Hirotaka Tanaka Toshiyuki
雑誌
【C】平成22年電気学会電子・情報・システム部門大会講演論文集
巻号頁・発行日
pp.178-183, 2010-09-02

近年、分布Bellman方程式に基づくリターン(積算報酬)分布近似手法が提案され、リスク考慮型強化学習法としての有用性も示された。しかしながら、その収束性に関する解析は十分でない。そこで本報告では、動的計画法により分布Bellman方程式を解いた場合の収束性解析結果を記す。動的計画法により、リターンの初期近似分布に依存せず真のリターン分布に収束することや、真の分布のモーメントに収束する速度について報告する。