著者
森 紘一郎
出版者
Waseda University
巻号頁・発行日
2005-02-02

強化学習は知識がない状態からの試行錯誤によって学習を行う。そのため学習が遅いという欠点があり、学習の高速化が大きな問題点となっている。このような問題に対して、従来、価値関数を分割して各プロセッサに割り当て、並列に更新する手法が提案されている。しかし、強化学習の性質上、分割された価値関数間で頻繁に経験を交換する必要があり、従来の研究ではプロセッサ間通信のオーバーヘッドが大きいことが問題であった。そこで、本論文では、共有する1つの価値関数を複数のエージェントが非同期並列的に更新するオーバーヘッドの少ない手法を提案する。本手法は、共有メモリ型並列計算機を対象としており、従来手法に比べて速度向上が高く、実装も容易という利点がある。共有メモリ型並列計算機Sun Ultra 80上で127×127の迷路タスクを用いて実行したところ4プロセッサで3.4倍というほぼ線形の速度向上を達成できた。