著者
吉田 和子 石井 信
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NC, ニューロコンピューティング (ISSN:09135685)
巻号頁・発行日
vol.101, no.154, pp.41-48, 2001-06-22
被引用文献数
2

強化学習とは、試行錯誤を通じて環境に適応する学習制御の枠組であり、エージェントは環境との相互作用によって学習を行なう。モデル同定強化学習法は、環境のモデルに基づいて価値関数を計算する手法であり、複雑な環境を扱うのに適している。本研究では、環境のモデル、すなわち状態遷移確率の近似にベイズ推定を用いる手法を提案する。強化学習における重要なトピックに、より良いポリシーを得るために行動を試すexploration(探索)と、より効率的に報酬を得るためのexploitation(搾取)のバランスの問題がある。本研究では、この2つの相反する制御を効果的に行なうために、エージェントの行動選択に逆温度メタパラメータの制御機構、すなわちメタ制御と、explorationボーナスを導入する。本手法を2次元迷路探索問題に適用し、逆温度の制御を行なわない手法と比較した。実験の結果、我々の手法は環境の変動にうまく適応できることが分かった。

言及状況

はてなブックマーク (1 users, 2 posts)

収集済み URL リスト