著者
尾川 順子 並木 明夫 石川 正俊
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NC, ニューロコンピューティング (ISSN:09135685)
巻号頁・発行日
vol.102, no.628, pp.73-78, 2003-01-28
参考文献数
17
被引用文献数
7

強化学習における割引率を学習進度によって調整することの有用性を示す.学習進度が浅いときには割引率を下げて即時報酬を重視し,学習が進むにつれて次第に割引率を大きくして,将来の報酬も考慮していくという戦略を提案する.また,学習進度の調整法として,指数的調整,TD誤差による調整,信頼度による調整を提案する.これをwindy gridworld 課題により検証する.