著者
小久保 燎太 福永 修一
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J106-D, no.12, pp.492-500, 2023-12-01

ポートハミルトン系の強化学習は方策の探索空間を限定することにより学習の高速化を目指した手法である.しかしながらこの方法は,学習が局所解に捕まりにくくなることを期待して制御入力に人為的なノイズを加えた確率的方策を用いている.このノイズがシステムの意図しない動作を引き起こす可能性がある.本研究では,強化学習の手法の一つであるPolicy Gradient with Parameter-based Exploration (PGPE)をポートハミルトン系の強化学習に適用することで,決定論的な方策を用いて制御則を学習できる手法を提案する.PGPEでは決定論的方策におけるパラメータに対して推定分布を仮定し,期待割引報酬和を最大化する推定分布のパラメータを勾配法により学習する.ポートハミルトン系の強化学習は2種類の方策パラメータをもつ.提案手法では,ポートハミルトン系の強化学習における2種類のパラメータに対して推定分布を仮定し,期待割引報酬和を最大化するように推定分布のパラメータを学習する.強化学習のベンチマークである倒立振子の制御問題に対して提案手法を適用し,倒立振子を振り上げ頂点で安定化させる制御則を獲得できることを示した.
著者
藤本 健治 佐藤 彰記 福永 修一
出版者
The Society of Instrument and Control Engineers
雑誌
計測自動制御学会論文集 (ISSN:04534654)
巻号頁・発行日
vol.48, no.2, pp.102-108, 2012 (Released:2012-03-02)
参考文献数
9

This paper proposes a parameter estimation method for state-space models based on the variational Bayes method. The proposed algorithm employs the prior and posterior distributions in the same form. This allows us to use it iteratively to obtain accurate estimation whereas the existing algorithms cannot be used iteratively. Furthermore a numerical example demonstrates the effectiveness of the proposed method.
著者
福永 修一 荒井 光
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. IBISML, 情報論的学習理論と機械学習 = IEICE technical report. IBISML, Information-based induction sciences and machine learning (ISSN:09135685)
巻号頁・発行日
vol.110, no.476, pp.17-21, 2011-03-21

近年,Gaussian Process Bandits (GPB)をモンテカルロ木探索へ適用したアルゴリズムであるガウス過程木探索が提案された.ガウス過程木探索は従来のアルゴリズムよりも性能のよい手法である.そこで本研究では,ガウス過程木探索に基づくモンテカルロ碁を提案する.提案手法は,ガウス過程における共分散行列とカーネル関数を用いて,信頼上限関数を最大化する戦略を選択する.そして提案手法の有効性を数値シミュレーションにより確認する.