- 著者
-
北川 竜平
三輪 誠
近山 隆
- 雑誌
- ゲームプログラミングワークショップ2007論文集
- 巻号頁・発行日
- vol.2007, no.12, pp.76-83, 2007-11-09
本研究では不完全情報ゲームである麻雀においてコンピュータプレイヤの教師あり学習による評価関数のパラメータの調整を行った.評価関数としては 3 層ニューラルネットワークを用いた.麻雀のゲームの記録である牌譜を用いた学習のために,コンピュータ麻雀プレイヤが最善手と判断した手と牌譜の中で実際に打たれた手との一致度を測る目的関数を最適制御理論に基づき定義した.目的関数によって求められる値を小さくすることを目的としバックプロパゲーションによって評価関数の調整を行った.結果として,コンピュータ麻雀プレイヤが最善手と判断した手と牌譜内で打たれた手との一致率はツモ局面において約 56%,鳴き局面において約 89%であった.インターネット麻雀サーバである東風荘でのレーティングは 1318 となった.