著者
岡 和人 松崎 公紀
雑誌
第57回プログラミング・シンポジウム予稿集
巻号頁・発行日
vol.2016, pp.9-18, 2016-01-08

「2048」のプレイヤとして,TD 学習を用いて作成した盤面評価関数を用いるプレイヤが有効であることが示されている.盤面評価関数には,盤面から特徴点の情報を抽出して部分評価値を計算する,部分評価関数の組が用いられている.これまでの研究では,盤面評価関数の性能は,数通りしか検討されていない.十分な学習が行えると仮定すれば,部分評価関数の特徴点の個数を増やし,部分評価関数の個数を増やすことで,より高性能なプレイヤを作ることが出来ると予想されるが,記憶容量をより多く消費する.また,盤面評価関数は部分評価関数の組み合わせによって得られるため,全ての盤面評価関数を調べ上げることは計算時間や記憶容量の問題から困難である.よって,記憶容量と性能とのバランスに優れる盤面評価関数を効率よく調べ,得られた盤面評価関数を用いるプレイヤがより強くなるかを調査する必要がある.本稿では,考えられる部分評価関数を列挙し,特徴点数が6 の場合で部分評価関数の性能を調査した.この結果,特徴点集合が連結成分数1 の形をとる部分評価関数の性能が高いとが見込まれることを示した.得られた高性能な部分評価関数を用いて,盤面評価関数を作成した.作成した盤面評価関数を用いたプレイヤの得点は,500 万ゲームを学習することで平均203769 点となった.また,性能の高い部分評価関数から,盤面からバランス良く特徴点を抽出するような盤面評価関数を作成した.個の盤面評価関数を用いるプレイヤの得点は,500 万ゲームを学習することで平均224562 点となり,これまで報告されているTD 学習のみを用いるプレイヤの中で最も高い得点となった.性能の高い部分評価関数を用いて,盤面からバランス良く特徴点を抽出するような盤面評価関数を用いて,GPCC(Games and Puzzles Competitions on Computers; プログラミング・シンポジウムの分科会)で提案されている「対戦型2048」で,提案する盤面評価関数をTD 学習によって作成したプレイヤが,既存のプレイヤよりも強いことを示した.