- 著者
-
小幡 琢磨
佐々木 洋輔
久保村 千明
亀田 弘之
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
- 巻号頁・発行日
- vol.105, no.615, pp.177-181, 2006-02-17
教師を必要とせずにエージェントを環境に適応させる枠組みとして強化学習がある.強化学習ではエージェントが環境に対して試行錯誤を繰り返すことにより,それぞれの状況に適した行動を学習することができる.試行はエージェントに実装されている行動の種類と状況の数によっては大量におこなうこととなる.現実的な環境を想定した場合にはこれらの数は増加してしまい,結果として学習が収束するまでには学習に反映されない大量の無駄な試行が存在することとなる.これらの無駄な試行には学習に有効に利用できる試行が存在すると考えられる.また状況間の類似を考慮することで,無駄な試行を減らすことが可能と考えられる.本研究ではこれらの無駄な試行に着目し,無駄な試行を経験として蓄積し,有効に利用することで学習速度を向上させることを目指した.具体的には,学習の過程における試行のなかで無駄な試行を学習に反映させる手法と,経験を蓄積することにより,類似した状況下で効率的に行動選択することのできる手法を提案する.