- 著者
-
保木 邦仁
- 雑誌
- ゲームプログラミングワークショップ2006論文集
- 巻号頁・発行日
- vol.2006, pp.78-83, 2006-11-10
将棋プログラムBonanzaの思考アルゴリズムの主要な特徴の一つである,局面評価の機械学習に関する手法を紹介する.これの手法では,minimax探索の振る舞いを決める特徴ベクトルの自動学習を目指す.熟練した人間の棋譜との指し手一致の度合いを図る目的関数を設計し,これに停留値を与える静的評価関数f(v)の特徴ベクトルvを求める.さらに,v=0となる自明な解の除去や,棋譜サンプル数の不足に起因するオーバーフィッティングを回避するため,ラグランジュ未定乗数法を用いて目的関数に拘束条件を課す.目的関数の停留値は静的評価関数の勾配∇f(v)を用いて探索される.これは,古くから知られている最適制御理論の枠組みに沿った手法である.しかし,約6万局の学習データから1万以上の要素を持つ特徴べくとるを生成し,駒割に加え序盤の駒組,中盤の駒の動き,終盤の速度計算等の複雑な盤面特徴の把握が必要とされる将棋において,有効に働く局面評価関数が生成された.筆者に知る限り,本稿で提案される手法は,チェスやその変種の静的評価関数の自動学習法として”実用に耐え,役に立つ”初めてのものである.