著者
横山 裕樹 浅田 稔
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.29, 2015

TD学習は価値関数の学習に広く用いられているが,状態空間が連続である場合や環境が非マルコフ的である場合における最適性について,多くの解析がなされていない.本研究では,木村ら(2000)の提案したactor-criticアルゴリズムをもとにして,criticの学習にTD誤差ではなく新たな基準を用いることで,より頑健性の高いアルゴリズムを提案する.また,その有用性について実験的,解析的に評価する.

言及状況

Twitter (1 users, 1 posts, 0 favorites)

Actor-criticアルゴリズムにおけるactorの効率的学習のためのcriticの学習 横山裕樹・浅田稔 https://t.co/pKgHTLc929 #jsai2015

収集済み URL リスト