著者
横山 裕樹 岡田 浩之
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.31, 2017

Actor-critic法や方策勾配法は行動や制御値として連続値を生成する方策の獲得を得意とするが, その方策空間は正規分布などに限定されることが多い. 本研究では,確率分布をパラメトリックに表現する代わりに,既知のノイズ分布からの変数変換によって間接的に表現し,ノンパラメトリックな確率的方策を獲得する強化学習手法を提案する.
著者
横山 裕樹 浅田 稔
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.29, 2015

TD学習は価値関数の学習に広く用いられているが,状態空間が連続である場合や環境が非マルコフ的である場合における最適性について,多くの解析がなされていない.本研究では,木村ら(2000)の提案したactor-criticアルゴリズムをもとにして,criticの学習にTD誤差ではなく新たな基準を用いることで,より頑健性の高いアルゴリズムを提案する.また,その有用性について実験的,解析的に評価する.
著者
河野 圭祐 横山 裕樹 森 裕紀 浅田 稔
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.29, 2015

ある変数の影響を除いた上で2つの多変量間の関係を強さを求める手法として偏正準相関分析があり,グレンジャー因果などの因果指標の計算などに用いられている.しかし偏正準相関分析は複数の異なる関係をもったデータが混ざったデータに対しては適用することが出来ない.本研究では偏正準相関の混合モデルを仮定することで,この問題の解決を試みる.また人工データを用いた実験を行い既存手法に対する優位性を示す.