- 著者
-
中村 崇仁
佐野 雅己
沢田 康次
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会技術研究報告. NC, ニューロコンピューティング (ISSN:09135685)
- 巻号頁・発行日
- vol.99, no.193, pp.41-48, 1999-07-19
強化学習において、Temporal Difference (TD)学習の発展形であるQ-Learningがよく用いられている。この方法は、状態と行動の対を評価する。そのため、高次元空間では多大な時間、計算資源が必要となる。そこで、本研究では、単一のエージェントを、積極的に複数のエージェントとしてとらえ、出力(行動)の決定を分割するアルゴリズムを提案する。このアルゴリズムにより、探索空間を縮小することになり、収束までのステップ数、計算時間、消費メモリ量の改善がみられた。その評価を行い、応用例を示す。