著者
河村 圭悟 水上 直紀 鶴岡 慶雅
雑誌
ゲームプログラミングワークショップ2016論文集
巻号頁・発行日
vol.2016, pp.188-195, 2016-10-28

不完全情報ゲームにおいて,ナッシュ均衡戦略は非常に重要なテーマである.特に多人数不完全情報ゲームにおいては,ナッシュ均衡解を一般に求める方法はまだ確立されていないことから,多くの関心を集めている.2人テキサス・ホールデムはCFR+ (Tamelin, 2014) によって解かれた (generally weakly solved) が,CFR+は空間計算量の観点から3人以上のテキサス・ホールデムに適用するには問題がある.本研究ではNFSP (Heinrich and Silver, 2016) と呼ばれる手法を用いて,CFR+では解くことが難しい多人数不完全情報ゲームのナッシュ均衡解を求めることを目指す.本研究では,学習部分にソフトマックス回帰を用いたFictitious Self-Play (FSP) を使用して,テキサス・ホールデムのトイゲームである2人クン・ポーカーにおいてFSPが近似的なナッシュ均衡解を求められることを示した.また,多人数ゲームである3人クン・ポーカーにおいても,FSPが近似的なナッシュ均衡解を求められることを示し,CFR+の戦略に対するFSPの戦略の平均被搾取量が減少することを示した.