著者
松井 亮平 保木 邦仁
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.59, no.11, pp.2063-2073, 2018-11-15

不確定性を持ち,ストーン配置やショットが浮動小数点数で表されるデジタルカーリングを題材に,一般化方策反復に基づく強化学習の一手法を検討した.強化学習はおおよそカーリングの予備知識を用いない行動集合とランダム方策から開始した.行動価値は重みの総数1,000万ほどの畳込みニューラルネットワークを用いて,挙動方策が生成した総数6億ほどの行動から推定した.行動集合が巨大であるため,グリーディ方策はモンテカルロ法により近似的に求めた.この実験によりグリーディ方策がサンプルプログラムに比する程度の強さを持ち,初歩的なショット知識に基づいた行動をとるようになる過程を明らかにした.