著者
水上 直紀 中張 遼太郎 浦 晃 三輪 誠 鶴岡 慶雅 近山 隆
雑誌
ゲームプログラミングワークショップ2013論文集
巻号頁・発行日
pp.1-7, 2013-11-01

コンピュータ麻雀プレイヤの研究はあまり行われておらず、実力も平均レベルに届いていない状態である。本研究では4人零和不確定不完全情報ゲームである麻雀の多人数という要素を削除した1人麻雀を考え、1人麻雀と4人麻雀の差を解析し、その差を埋めることで1人麻雀の4人麻雀への適用を図る。解析の結果、4人麻雀と1人麻雀の最も大きな差は降りでことが分かったため、降りるべき局面を機械学習により認識できるようにした。降りを認識したプレイヤを4人麻雀で評価し、降りを認識しないプレイヤより有意に強いことを示した。また得られたプレイヤは平均プレイヤと同等の実力であることを確認した。
著者
水上 直紀 鶴岡 慶雅
雑誌
ゲームプログラミングワークショップ2015論文集
巻号頁・発行日
vol.2015, pp.179-186, 2015-10-30

長期的な戦略に基づく手の決定は繰り返しゲームにおいて重要である.本論文では麻雀の繰り返しゲームの性質に着目して最終順位を考慮したコンピュータ麻雀プレイヤの構築法について述べる.牌譜中に現れた点数状況から最終順位を予測するモデルの学習を行う.モンテカルロ法のシミュレーションでの報酬を予測モデルの結果を用いることで最終順位に基づく手をプログラムは選択する.オンライン麻雀サイト「天鳳」で作成されたプログラムの実力を評価した結果,レーティングとして,中級者を超える1844点が得られた.
著者
水上 直紀 鶴岡 慶雅
雑誌
ゲームプログラミングワークショップ2016論文集
巻号頁・発行日
vol.2016, pp.81-88, 2016-10-28

本論文では強化学習を用いた麻雀プレイヤを構築する方法について述べる.初めに手牌から和了点数を予測するモデルを生成した牌譜から学習する.このモデルの結果と期待最終順位を用いて効率的な和了を行う手をプログラムは選択する.このモデルの結果と期待最終順位を用いて効率的な和了を行う手をプログラムは選択する.得られたプログラムは高い点数を和了する技術を獲得したものの,自己対戦の結果は元のプログラムに勝ち越すことはできなかった.
著者
水上 直紀 鶴岡 慶雅
雑誌
ゲームプログラミングワークショップ2014論文集
巻号頁・発行日
vol.2014, pp.48-55, 2014-10-31

相手の手や見えない状態を予測することは不完全情報ゲームにおいて重要である.本論文では相手のモデルとモンテカルロ法を用いたコンピュータ麻雀プレイヤの構築法について述べる.相手のモデルは三つの要素(聴牌,待ち牌,得点)の組み合わせとし,各要素を個別に牌譜から予測モデルの学習を行う.モンテカルロ法のシミュレーション中の相手の挙動はこれらのモデルによって得られる確率分布に基づく.オンライン麻雀サイト「天鳳」で作成されたプログラムの実力を評価した結果,レーティングとして,中級者と同等である1681点が得られた.
著者
河村 圭悟 水上 直紀 鶴岡 慶雅
雑誌
ゲームプログラミングワークショップ2016論文集
巻号頁・発行日
vol.2016, pp.188-195, 2016-10-28

不完全情報ゲームにおいて,ナッシュ均衡戦略は非常に重要なテーマである.特に多人数不完全情報ゲームにおいては,ナッシュ均衡解を一般に求める方法はまだ確立されていないことから,多くの関心を集めている.2人テキサス・ホールデムはCFR+ (Tamelin, 2014) によって解かれた (generally weakly solved) が,CFR+は空間計算量の観点から3人以上のテキサス・ホールデムに適用するには問題がある.本研究ではNFSP (Heinrich and Silver, 2016) と呼ばれる手法を用いて,CFR+では解くことが難しい多人数不完全情報ゲームのナッシュ均衡解を求めることを目指す.本研究では,学習部分にソフトマックス回帰を用いたFictitious Self-Play (FSP) を使用して,テキサス・ホールデムのトイゲームである2人クン・ポーカーにおいてFSPが近似的なナッシュ均衡解を求められることを示した.また,多人数ゲームである3人クン・ポーカーにおいても,FSPが近似的なナッシュ均衡解を求められることを示し,CFR+の戦略に対するFSPの戦略の平均被搾取量が減少することを示した.
著者
水上 直紀 中張 遼太郎 浦 晃 三輪 誠 鶴岡 慶雅 近山 隆
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.55, no.11, pp.2410-2420, 2014-11-15

本論文では,牌譜を用いた教師付き学習による麻雀プログラムの作成法について述べる.まず,上級者の牌譜を用いたパーセプトロン学習によって1人麻雀プレイヤを作成し,それを拡張することによって4人麻雀への適用を行う.拡張は,1人麻雀プレイヤに「降り」と「鳴き」の機能を教師付き学習によって導入することで行った.オンライン麻雀サイト「天鳳」で作成されたプログラムの実力を評価した結果,レーティングとして,平均的な人間プレイヤーの実力を大きく上回る1,651点が得られた.