著者
吉野 拓真 五十嵐 治一 川島 馨
雑誌
ゲームプログラミングワークショップ2020論文集
巻号頁・発行日
vol.2020, pp.16-21, 2020-11-06

選択探索の一種として,モンテカルロソフトマックス探索が提案されている.一般に,大規模ニューラルネットワークモデルによる評価関数を利用する場合,計算に時間がかかることから,αβ探索のような全幅探索よりは,選択探索の方が向いている. 特に,モンテカルロソフトマックス探索においては,兄弟ノード局面をまとめて評価する際に,GPU による並列計算を用いれば,評価関数が大規模なニューラルネットワークモデルであっても容易に並列化できる可能性がある.本研究では,dlshogi のソースコードを改変し,モンテカルロソフトマックス探索とニューラルネットワークモデルの評価関数を組み合わせたプログラムを作成した.特に,ニューラルネットワークモデルの入力層に提示する局面の特徴量表現を工夫することにより,GPU で兄弟局面を同時に並列計算する際の処理時間を短縮することを試みた.さらに,ノード選択方策にPolicy Network の出力値を取り入れることにより,探索精度の向上を試みた.
著者
尾﨑 大夢 ライエル グリムベルゲン
雑誌
ゲームプログラミングワークショップ2020論文集
巻号頁・発行日
vol.2020, pp.77-80, 2020-11-06

AlphaGo Zeroの登場によってゲーム固有の特徴量を用いないで強いゲームAIを作ることが可能になった.一方で人間らしい動きをするAIや不完全情報ゲームにおけるAI研究の分野は強いAIこそ完成したものの発展途上であると考えられる.本研究では不完全情報ゲームの麻雀をテーマとして、捨て牌などの局情報をもとに相手の狙っている役の予測をニューラルネットワークで予測することを目的とする.牌譜から抽出したデータを入力データとしてLSTMモデルによる予測を行わせ,役ごとに確率を出力させる.実験の結果に有意差は確認できず,今後の課題を残すこととなった.今後の課題として実験結果の原因を調査することになる.
著者
大渡 勝己 木谷 裕紀
雑誌
ゲームプログラミングワークショップ2020論文集
巻号頁・発行日
vol.2020, pp.30-37, 2020-11-06

二人単貧民はトランプゲームの大富豪(大貧民)を簡略化した二人零和確定完全情報ゲームである.通常,単貧民は手札をすべて出し切ったプレイヤの勝ちである.それに対して本研究では勝利条件を一般化し,予め定めた枚数の手札を出した方が勝ち,言い換えると,それぞれ指定された残り手札枚数に先に到達した方が勝ち,というルールについて検証を行った.結果として,通常の単貧民の場合と同じく,必勝プレイヤの判定を手札の総数N に対してO(N) 時間で計算でき,二人単貧民の性質の多くはこの一般化した勝利条件においても成り立つことを示した.さらに,このゲームにおける最適戦略についても,最適な提出札の必要十分な範囲をO(N) 時間で計算できることなどの複数の新しい知見を得た.
著者
安福 智明 茂木 祐紀 多田 将人
雑誌
ゲームプログラミングワークショップ2020論文集
巻号頁・発行日
vol.2020, pp.53-57, 2020-11-06

Numbers Game のゲームの長さは,アフィン・リー代数の理論を用いて,理論上計算可能であることが知られている.今回我々は,別のアプローチからこのゲームの長さについて考察し,頂点の個数が3つの場合のNumbers Game において,ゲームの長さの計算手法を考案した.
著者
田中 哲朗
雑誌
ゲームプログラミングワークショップ2020論文集
巻号頁・発行日
vol.2020, pp.194-201, 2020-11-06

「十六むさし」は約400 年前から遊ばれている日本の古いボードゲームである.このゲームは,二人用の二人零和有限確定完全情報ゲームの一つであるため,ゲーム中の各局面のゲーム値を計算することができる.本研究では,標準的な「十六むさし」と2 つのバリエーションを強解決した.
著者
邓 士达 伊藤 毅志
雑誌
ゲームプログラミングワークショップ2020論文集
巻号頁・発行日
vol.2020, pp.58-61, 2020-11-06

対戦ゲームにおいて,対戦相手の強さが適度であることは,楽しさを維持する上で重要であることは知られている.本研究では,動的に難易度を調整して適度な難易度を実現し楽しさを維持する格闘ゲームAI の実現を目指す.従来の研究から,モンテカルロ木探索(MCTS)を用いて強さを調整する手法は提案されているが,十分な強さを実現するものではなかった.一方で,MCTS の候補手の生成において,遺伝的アルゴリズムを用いることで,有用な候補手だけに絞ることで探索を効率化し,強さを実現する研究もある.ここでは,この2つの研究を結びつけたプロトタイプシステム(TestAI)を構築する.評価実験として,MCTS だけを利用する動的難易度調整システム(MCTS_DDA)とこのTestAI の性能の比較を行った.その結果,TestAI は人間の上級者レベルのプレイヤにも十分なレベルの強さを実現することができた.一方で,勝率を調べると,中級レベル以下の対戦相手には勝ちすぎてしまう可能性も示唆された.そこで,勝率を50%に近づけるために,攻撃の命中率も考慮した新たな難易度調整手法を考案した
著者
大渡 勝己 木谷 裕紀
雑誌
ゲームプログラミングワークショップ2020論文集
巻号頁・発行日
vol.2020, pp.131-138, 2020-11-06

二人単貧民はトランプゲームの大富豪(大貧民)を簡略化した二人零和確定完全情報ゲームである.二人単貧民において勝敗のみに着目した場合,必勝プレイヤと必勝の戦略は手札の総数N に対してO(N)時間で計算できることが知られている.一方本研究では,二人単貧民において負け側の残り手札枚数を得点として扱い,できる限り相手に出させずに勝ち,逆に負けるとしてもできる限り多く出すことを競う設定を考え,検証を行った.結果として,この得点のミニマックス値と得点を最大化する提出札の必要十分な範囲のいずれもO(N) 時間で計算できることを示し,得点最大化とゲーム中のパスの回数や手数との間に密接な関係があることも確かめた.
著者
橋本 大世 鶴岡 慶雅
雑誌
ゲームプログラミングワークショップ2020論文集
巻号頁・発行日
vol.2020, pp.62-69, 2020-11-06

深層強化学習の多くの設定ではエージェントが行動を取る際, 一度選んだ行動を何度か繰り返し, 次の行動決定時まで状態は観測しないことが一般的である. これはaction repeat またはframe skip と呼ばれる. 行動を繰り返すこの技法にはいくつかの利点があるが, 行動を繰り返す間のデータ(中間フレーム)は実質的に捨てられてしまう. 学習データ量はaction repeat の長さに反比例するため, これは学習のサンプル効率に悪影響となりうる. 本研究では, 擬似的な行動という概念を導入することでこの問題を軽減する, シンプルでありながら有効な手法を提案する. 提案手法の要点は, 擬似的な行動を考えることで, actionrepeat 間の遷移データを学習に利用できるようにすることである. 連続制御タスクにおける擬似的な行動は, 行動を決定する時刻をまたぐ行動系列の平均として得ることができる. 一方, 離散制御タスクにおける擬似的な行動は, 行動の埋め込み表現から計算することができる. この手法は, Q 関数の学習を伴う任意のモデルフリー強化学習手法と組み合わせることができ, 汎用的である. 実験では, OpenAI Gym の連続制御タスク, 離散制御タスクの両方で提案手法の有効性を検証した.