- 著者
-
横山 裕樹
浅田 稔
- 出版者
- 人工知能学会
- 雑誌
- 人工知能学会全国大会論文集 (ISSN:13479881)
- 巻号頁・発行日
- vol.29, 2015
TD学習は価値関数の学習に広く用いられているが,状態空間が連続である場合や環境が非マルコフ的である場合における最適性について,多くの解析がなされていない.本研究では,木村ら(2000)の提案したactor-criticアルゴリズムをもとにして,criticの学習にTD誤差ではなく新たな基準を用いることで,より頑健性の高いアルゴリズムを提案する.また,その有用性について実験的,解析的に評価する.