著者
芝山 敏満 新妻 弘崇 伊藤 実
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NC, ニューロコンピューティング (ISSN:09135685)
巻号頁・発行日
vol.101, no.534, pp.13-18, 2001-12-14
参考文献数
8

本研究では, サポートベクターマシンを使って二人ゼロ和複数期間ゲームの価値関数を学習する上で, 学習データ数が多い場合に従来よりもメモリ使用量の少ない学習法を提案する.我々は以前に, 強化学習における価値関数をカーネルトリックを使って近似的にバッチ学習する手法を提案した.この手法を使うと価値関数を, より少ないメモリーで表現することができた.しかし, この手法を学習データ数の多いタスクに適用すると, 計算の途中過程で, 非常に多くのメモリが必要になるため, 学習データ数の多いタスクに適用させることは困難であった.本研究では, 追加学習が可能であるインクリメンタルサポートベクターマシンを用いて価値関数を学習することでメモリ使用量を減らす手法を提案する.また, この手法によってオンライン学習が可能となる.本研究では, この手法をTic-Tac-Toeに適用し, その有用性を示す.