著者
佐藤 亘 橘 完太
出版者
日本知能情報ファジィ学会
雑誌
日本知能情報ファジィ学会 ファジィ システム シンポジウム 講演論文集 第30回ファジィシステムシンポジウム
巻号頁・発行日
pp.180-181, 2014 (Released:2015-04-01)

強化学習とは試行錯誤を通じて未知環境における最適行動を獲得する学習手法である.強い非定常性を持つ環境で強化学習を行う場合,学習に膨大な時間がかかってしまう可能性がある.この問題に関してさまざまな研究がされてきた.著者の知るかぎりではこれらの手法は環境変化の認知と環境への対応という2つの部分から構成されているという点で共通している.従来手法ではエージェントに環境変化を認知するセンサーを持たせ,最適行動と探索行動の切り替えを行っていたが,提案手法では確率分布としての状態価値をベイズ更新することにより環境変化時の最適行動と探索行動を確率分布に従って切り替えられるようになる.

言及状況

外部データベース (DOI)

Twitter (1 users, 2 posts, 0 favorites)

状態価値に確率分布を用いた強化学習 https://t.co/XFLjcTaPL8 #bot
状態価値に確率分布を用いた強化学習 https://t.co/XFLjcTaPL8 #bot

収集済み URL リスト