著者
水上 直紀 中張 遼太郎 浦 晃 三輪 誠 鶴岡 慶雅 近山 隆
雑誌
ゲームプログラミングワークショップ2013論文集
巻号頁・発行日
pp.1-7, 2013-11-01

コンピュータ麻雀プレイヤの研究はあまり行われておらず、実力も平均レベルに届いていない状態である。本研究では4人零和不確定不完全情報ゲームである麻雀の多人数という要素を削除した1人麻雀を考え、1人麻雀と4人麻雀の差を解析し、その差を埋めることで1人麻雀の4人麻雀への適用を図る。解析の結果、4人麻雀と1人麻雀の最も大きな差は降りでことが分かったため、降りるべき局面を機械学習により認識できるようにした。降りを認識したプレイヤを4人麻雀で評価し、降りを認識しないプレイヤより有意に強いことを示した。また得られたプレイヤは平均プレイヤと同等の実力であることを確認した。
著者
水上 直紀 鶴岡 慶雅
雑誌
ゲームプログラミングワークショップ2015論文集
巻号頁・発行日
vol.2015, pp.179-186, 2015-10-30

長期的な戦略に基づく手の決定は繰り返しゲームにおいて重要である.本論文では麻雀の繰り返しゲームの性質に着目して最終順位を考慮したコンピュータ麻雀プレイヤの構築法について述べる.牌譜中に現れた点数状況から最終順位を予測するモデルの学習を行う.モンテカルロ法のシミュレーションでの報酬を予測モデルの結果を用いることで最終順位に基づく手をプログラムは選択する.オンライン麻雀サイト「天鳳」で作成されたプログラムの実力を評価した結果,レーティングとして,中級者を超える1844点が得られた.
著者
水上 直紀 鶴岡 慶雅
雑誌
ゲームプログラミングワークショップ2014論文集
巻号頁・発行日
vol.2014, pp.48-55, 2014-10-31

相手の手や見えない状態を予測することは不完全情報ゲームにおいて重要である.本論文では相手のモデルとモンテカルロ法を用いたコンピュータ麻雀プレイヤの構築法について述べる.相手のモデルは三つの要素(聴牌,待ち牌,得点)の組み合わせとし,各要素を個別に牌譜から予測モデルの学習を行う.モンテカルロ法のシミュレーション中の相手の挙動はこれらのモデルによって得られる確率分布に基づく.オンライン麻雀サイト「天鳳」で作成されたプログラムの実力を評価した結果,レーティングとして,中級者と同等である1681点が得られた.
著者
水上 直紀 鶴岡 慶雅
雑誌
ゲームプログラミングワークショップ2016論文集
巻号頁・発行日
vol.2016, pp.81-88, 2016-10-28

本論文では強化学習を用いた麻雀プレイヤを構築する方法について述べる.初めに手牌から和了点数を予測するモデルを生成した牌譜から学習する.このモデルの結果と期待最終順位を用いて効率的な和了を行う手をプログラムは選択する.このモデルの結果と期待最終順位を用いて効率的な和了を行う手をプログラムは選択する.得られたプログラムは高い点数を和了する技術を獲得したものの,自己対戦の結果は元のプログラムに勝ち越すことはできなかった.
著者
水上 直紀 中張 遼太郎 浦 晃 三輪 誠 鶴岡 慶雅 近山 隆
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.55, no.11, pp.2410-2420, 2014-11-15

本論文では,牌譜を用いた教師付き学習による麻雀プログラムの作成法について述べる.まず,上級者の牌譜を用いたパーセプトロン学習によって1人麻雀プレイヤを作成し,それを拡張することによって4人麻雀への適用を行う.拡張は,1人麻雀プレイヤに「降り」と「鳴き」の機能を教師付き学習によって導入することで行った.オンライン麻雀サイト「天鳳」で作成されたプログラムの実力を評価した結果,レーティングとして,平均的な人間プレイヤーの実力を大きく上回る1,651点が得られた.
著者
河村 圭悟 水上 直紀 鶴岡 慶雅
雑誌
ゲームプログラミングワークショップ2016論文集
巻号頁・発行日
vol.2016, pp.188-195, 2016-10-28

不完全情報ゲームにおいて,ナッシュ均衡戦略は非常に重要なテーマである.特に多人数不完全情報ゲームにおいては,ナッシュ均衡解を一般に求める方法はまだ確立されていないことから,多くの関心を集めている.2人テキサス・ホールデムはCFR+ (Tamelin, 2014) によって解かれた (generally weakly solved) が,CFR+は空間計算量の観点から3人以上のテキサス・ホールデムに適用するには問題がある.本研究ではNFSP (Heinrich and Silver, 2016) と呼ばれる手法を用いて,CFR+では解くことが難しい多人数不完全情報ゲームのナッシュ均衡解を求めることを目指す.本研究では,学習部分にソフトマックス回帰を用いたFictitious Self-Play (FSP) を使用して,テキサス・ホールデムのトイゲームである2人クン・ポーカーにおいてFSPが近似的なナッシュ均衡解を求められることを示した.また,多人数ゲームである3人クン・ポーカーにおいても,FSPが近似的なナッシュ均衡解を求められることを示し,CFR+の戦略に対するFSPの戦略の平均被搾取量が減少することを示した.
著者
水上 直紀 中張 遼太郎 浦 晃 三輪 誠 鶴岡 慶雅 近山 隆
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.55, no.11, pp.2410-2420, 2014-11-15

本論文では,牌譜を用いた教師付き学習による麻雀プログラムの作成法について述べる.まず,上級者の牌譜を用いたパーセプトロン学習によって1人麻雀プレイヤを作成し,それを拡張することによって4人麻雀への適用を行う.拡張は,1人麻雀プレイヤに「降り」と「鳴き」の機能を教師付き学習によって導入することで行った.オンライン麻雀サイト「天鳳」で作成されたプログラムの実力を評価した結果,レーティングとして,平均的な人間プレイヤーの実力を大きく上回る1,651点が得られた.This paper describes a supervised machine learning approach for building a mahjong program. We start with building a one-player mahjong program by Perceptron learning with game records of expert human players,and adapt it to four-player mahjong. The adaptation is achieved by incorporating the "folding" and "calling" functionalities that are separately learned from game records. We have evaluated the playing strength of the resulting program on a large online mahjong site "Tenhou". The program has achieved a rating of 1,651, which is considerably higher than that of the average human player.
著者
水上 直紀 鶴岡 慶雅
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.60, no.7, pp.1325-1336, 2019-07-15

自己対戦を利用することで囲碁や将棋といった完全情報ゲームにおいて人間プレイヤを超えるコンピュータプレイヤが示されている.一方で不完全情報ゲームの分野である麻雀ではこのような研究は行われていない.そこで本論文では自動対戦棋譜の教師あり学習による麻雀プログラムを構築する方法について述べる.まず,人間の牌譜から教師あり学習によりコンピュータプレイヤを構築し,このプレイヤ同士を対局させることにより牌譜を生成する.次に,この牌譜を用いて手牌から和了の翻数を予測するモデルを機械学習により構築する.最終的に,この翻数予測モデルの出力と期待最終順位を用いて点数状況を考慮する麻雀プログラムを構築した.評価実験により,得られた翻数予測モデルは4翻以上の高い翻数の成功率を約1ポイント向上させることを確認した.