著者
横山 裕樹 岡田 浩之
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.31, 2017

Actor-critic法や方策勾配法は行動や制御値として連続値を生成する方策の獲得を得意とするが, その方策空間は正規分布などに限定されることが多い. 本研究では,確率分布をパラメトリックに表現する代わりに,既知のノイズ分布からの変数変換によって間接的に表現し,ノンパラメトリックな確率的方策を獲得する強化学習手法を提案する.

言及状況

はてなブックマーク (1 users, 1 posts)

収集済み URL リスト