著者
小久保 燎太 福永 修一
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J106-D, no.12, pp.492-500, 2023-12-01

ポートハミルトン系の強化学習は方策の探索空間を限定することにより学習の高速化を目指した手法である.しかしながらこの方法は,学習が局所解に捕まりにくくなることを期待して制御入力に人為的なノイズを加えた確率的方策を用いている.このノイズがシステムの意図しない動作を引き起こす可能性がある.本研究では,強化学習の手法の一つであるPolicy Gradient with Parameter-based Exploration (PGPE)をポートハミルトン系の強化学習に適用することで,決定論的な方策を用いて制御則を学習できる手法を提案する.PGPEでは決定論的方策におけるパラメータに対して推定分布を仮定し,期待割引報酬和を最大化する推定分布のパラメータを勾配法により学習する.ポートハミルトン系の強化学習は2種類の方策パラメータをもつ.提案手法では,ポートハミルトン系の強化学習における2種類のパラメータに対して推定分布を仮定し,期待割引報酬和を最大化するように推定分布のパラメータを学習する.強化学習のベンチマークである倒立振子の制御問題に対して提案手法を適用し,倒立振子を振り上げ頂点で安定化させる制御則を獲得できることを示した.