著者
中村 崇仁 佐野 雅己 沢田 康次
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NC, ニューロコンピューティング (ISSN:09135685)
巻号頁・発行日
vol.99, no.193, pp.41-48, 1999-07-19

強化学習において、Temporal Difference (TD)学習の発展形であるQ-Learningがよく用いられている。この方法は、状態と行動の対を評価する。そのため、高次元空間では多大な時間、計算資源が必要となる。そこで、本研究では、単一のエージェントを、積極的に複数のエージェントとしてとらえ、出力(行動)の決定を分割するアルゴリズムを提案する。このアルゴリズムにより、探索空間を縮小することになり、収束までのステップ数、計算時間、消費メモリ量の改善がみられた。その評価を行い、応用例を示す。

言及状況

はてなブックマーク (1 users, 1 posts)

収集済み URL リスト