著者
渡辺 順哉 金子 知適
雑誌
ゲームプログラミングワークショップ2016論文集
巻号頁・発行日
vol.2016, pp.141-148, 2016-10-28

近年,囲碁においてコンピュータプレイヤAlphaGoが世界トップ棋士の一人である李セドルに勝利した[11].囲碁を始めとする様々なゲームにおいてコンピュータプレイヤの強さはプロレベルに達し,個性に関する研究に期待が持たれている.本研究では,広く用いられている探索手法であるUCTの囲碁における個性の実現を目標とする.UCTでの個性の実現にはprior knowledgeとプレイアウト方策の調整が必要である.前者についてはどうぶつ将棋を題材とした先行研究がある[1].この先行研究ではprior knowledgeを用いることで指し手に特徴を持つプレイヤの実現に成功しているが,本来勝率が低いノードを高評価することでプレイヤが弱くなってしまう問題点がある.強さの調整には様々な手法が考えられるが,方策学習によって強さを調整し個性を実現する研究は行われていない.そこで,本研究ではUCTバランシング[2]という学習法とprior knowledgeを組み合わせ,探索全体でのバランスを調整し個性を実現することを提案する.また,強さの具体的な調整手法として,学習局面を調整することを提案する.実験結果から,prior knowledgeによって囲碁における打ち手に特徴が現れること,方策学習の局面数を調整することで強さが制御できることが確認された.また,提案手法で学習した方策を用いることで,対戦の段階でprior knowledgeを用いない場合においても着手が特徴を持つ傾向があることが分かった.