著者
北川 竜平 三輪 誠 近山 隆
雑誌
ゲームプログラミングワークショップ2007論文集
巻号頁・発行日
vol.2007, no.12, pp.76-83, 2007-11-09

本研究では不完全情報ゲームである麻雀においてコンピュータプレイヤの教師あり学習による評価関数のパラメータの調整を行った.評価関数としては 3 層ニューラルネットワークを用いた.麻雀のゲームの記録である牌譜を用いた学習のために,コンピュータ麻雀プレイヤが最善手と判断した手と牌譜の中で実際に打たれた手との一致度を測る目的関数を最適制御理論に基づき定義した.目的関数によって求められる値を小さくすることを目的としバックプロパゲーションによって評価関数の調整を行った.結果として,コンピュータ麻雀プレイヤが最善手と判断した手と牌譜内で打たれた手との一致率はツモ局面において約 56%,鳴き局面において約 89%であった.インターネット麻雀サーバである東風荘でのレーティングは 1318 となった.
著者
北川 竜平
出版者
東京大学大学院新領域創成科学研究科 基盤情報学専攻
巻号頁・発行日
2009-03-23

報告番号 : ;学位授与年月日 : 2009-3-23 ;学位の種別 : 修士 ;学位の種別 : 修士(科学);学位記番号 : 修創域第2822号 ; 研究科・専攻: 新領域創成科学研究科基盤情報学専攻