著者
佐藤 直之 池田 心
雑誌
ゲームプログラミングワークショップ2017論文集
巻号頁・発行日
vol.2017, pp.64-71, 2017-11-03

花札の「こいこい」ゲームは交互2人零和不完全情報ゲームの一種で,様々な媒体で多くの人に遊ばれているが研究例が少なく,人間の上級者に匹敵する人工プレイヤが開発されたという話も聞かない.そのため我々は強化学習の方策勾配法とNeural Fitted Q Iterationを用いて強い「こいこい」プレイヤの実装を試みた.それぞれ盤面の低級な特徴量268個を入力に用いた人工ニューラルネットワークを状態行動価値の推定に用い,簡単なルールベース人工プレイヤとの反復対戦を通じて適切なパラメータの学習を行った.その結果それぞれ対戦相手から搾取した平均スコアは-0.3点と0.5点となった.

言及状況

Twitter (2 users, 2 posts, 0 favorites)

「花札のこいこいにおける方策勾配法とNeural Fitted Q Iterationの適用」はこちらから "情報学広場:情報処理学会電子図書館" https://t.co/qLxDipSEiv

収集済み URL リスト