著者
黄 柱皓 金子 知適
雑誌
ゲームプログラミングワークショップ2017論文集
巻号頁・発行日
vol.2017, pp.195-200, 2017-11-03

二人以上を対象としたゲームでは,参加するプレイヤーの勝ちやすさがある程度均衡していることが好ましい.これを(ゲーム)バランスが取れているという.囲碁や将棋では初期状態が毎回同じなのでバランスの問題はないが,多くのボードゲームは,マップと呼ばれる初期状態を毎回異なるものに設定して競うため,マップ次第ではバランスが崩れうる.本研究では,マップを用いたボードゲームの一例としてSettlers of Catanに着目し,特定のマップにおけるプレイヤー間のバランスを評価するための手法について検討し,過去のマップを評価した.また本研究では,Settlers of Catanにおいてバランスの取れた多様なマップ群の自動生成を提案した.
著者
嶽 俊太郎 金子 知適
雑誌
ゲームプログラミングワークショップ2017論文集
巻号頁・発行日
vol.2017, pp.250-257, 2017-11-03

ゲームAI分野において,自己対戦により強化学習を行って評価関数を作成する手法は,AlphaGoに代表されるように大きな成功を収めてきた. しかし,強化学習で学習した評価関数は,当然のことながら最適価値関数とは限らず,また最適価値関数からどの程度離れているかもわからない. この研究では、強化学習により学習した評価関数が、最適評価関数と比べてどの程度精度の面で離れているか一定の判断基準を与えることを目的とする. 実験は最適評価関数が解析されているどうぶつしょうぎを用いて行う. 完全解析データにノイズを加えて学習させた評価関数を強化学習による評価関数と見立て,これと最適評価関数との精度を比較をする. 実験から,評価関数のモデルの種類によっては40%のノイズを加えても精度があまり落ちず,想定していたよりもノイズに対して頑丈であることを示す結果が得られた. また,より高度なモデルの方がノイズの影響を受けやすいことを示唆する結果も得られた. この結果は,より高度で正確な評価関数を作成・学習させるには,学習データの精度もより正確でなければならないということ指し示していると考えることができる.
著者
藤村 悠太朗 金子 知適
雑誌
ゲームプログラミングワークショップ2018論文集
巻号頁・発行日
vol.2018, pp.145-152, 2018-11-09

近年,環境から得た報酬を用いて学習を行う,強化学習の手法が盛んに研究されている.Deep Q-Network がAtari2600の様々なゲームで人間のプレイヤーを上回るスコアを達成したことが報告されており,より一般的なビデオゲームへの応用も期待されている.本研究は,世界的に有名なコンピュータゲームであるMinecraft上で動作するAIエージェントを研究対象とする.Minecraft のようなゲームは環境から報酬が与えられる機会が少なく,そのままでは学習が難しいという問題がある.この問題を解決するため,課題を階層的に分割することで模倣学習と強化学習を組み合わせる手法であるhg-DAgger/Qで学習するエージェントでの実験を行い,その性質を検討した.
著者
渡辺 敬介 金子 知適
雑誌
ゲームプログラミングワークショップ2017論文集
巻号頁・発行日
vol.2017, pp.158-162, 2017-11-03

本論文は,将棋における勾配ブースティング木を用いた局面評価関数を実証する.現在,殆どの将棋プログラムでは線形モデルを用いた評価関数が使用されている.一方で,機械学習分野では様々な非線形モデルを用いた手法が提案されており,これらの手法をうまく将棋に適用できれば既存手法より正確な評価関数を作成できると期待される.本研究は,勾配ブースティングを用いることにより評価関数の改善を試みた.1手当たりの探索局面数を固定して対局実験を行った結果,提案手法は基本手法に対して勝率6割以上で勝ち越し,提案手法が有力な手法であることが示された.しかし探索速度では提案手法に従来手法に大きく劣り,さらなる改善が必要であると考えられる.
著者
大森 翔太朗 金子 知適
雑誌
研究報告ゲーム情報学(GI) (ISSN:21888736)
巻号頁・発行日
vol.2015-GI-34, no.6, pp.1-7, 2015-06-27

近年プレイヤの個性に関する研究が人工知能の分野で取り組まれ始めている.本研究では,将棋の指し手の選択に注目し,コンピュータプログラムで棋風を実現する方法について提案する.棋風としては,プレイヤが攻めや受けなど特徴を持つ指し手を選ぶ傾向についてに着目する.棋風を統計的に分析した過去の研究を参考に攻めの特徴と受けの特徴を決め,攻めと受けの棋風について,それぞれの特徴の現れているプレイヤの棋譜を選別する.そしてそれらの棋譜を教師に評価関数の機械学習を行う.提案手法で学習したプログラムと,一般の棋譜で学習したプログラムの差を,攻めと受けに関する次の一手問題を題材に評価する予定である.
著者
渡辺 順哉 金子 知適
雑誌
ゲームプログラミングワークショップ2016論文集
巻号頁・発行日
vol.2016, pp.141-148, 2016-10-28

近年,囲碁においてコンピュータプレイヤAlphaGoが世界トップ棋士の一人である李セドルに勝利した[11].囲碁を始めとする様々なゲームにおいてコンピュータプレイヤの強さはプロレベルに達し,個性に関する研究に期待が持たれている.本研究では,広く用いられている探索手法であるUCTの囲碁における個性の実現を目標とする.UCTでの個性の実現にはprior knowledgeとプレイアウト方策の調整が必要である.前者についてはどうぶつ将棋を題材とした先行研究がある[1].この先行研究ではprior knowledgeを用いることで指し手に特徴を持つプレイヤの実現に成功しているが,本来勝率が低いノードを高評価することでプレイヤが弱くなってしまう問題点がある.強さの調整には様々な手法が考えられるが,方策学習によって強さを調整し個性を実現する研究は行われていない.そこで,本研究ではUCTバランシング[2]という学習法とprior knowledgeを組み合わせ,探索全体でのバランスを調整し個性を実現することを提案する.また,強さの具体的な調整手法として,学習局面を調整することを提案する.実験結果から,prior knowledgeによって囲碁における打ち手に特徴が現れること,方策学習の局面数を調整することで強さが制御できることが確認された.また,提案手法で学習した方策を用いることで,対戦の段階でprior knowledgeを用いない場合においても着手が特徴を持つ傾向があることが分かった.
著者
金子 知適
出版者
東京大学
雑誌
若手研究(B)
巻号頁・発行日
2010

本研究課題では,コンピュータの人工知能の判断力が,高度に訓練された人間の判断力に匹敵しうる分野を対象に,コンピュータプログラムを用いて人間の判断を支援する手法を研究を行なった.具体的には,囲碁や将棋において,コンピュータプログラムがMinMax探索を行なって得た評価値やモンテカルロ木探索をもちいて得た勝率として提示した判断と,人間の熟達者の判断との差について研究を行なった.
著者
竹内 聖悟 林 芳樹 金子 知適 川合 慧
雑誌
ゲームプログラミングワークショップ2006論文集
巻号頁・発行日
vol.2006, pp.56-63, 2006-11-10

本稿では、勝率と評価値の歪みに基づいた評価関数の調整法を提案し、将棋を例題に、本手法の有効性を示す。評価関数の調整は強いプログラムの作成に不可欠であるが、どこに問題があるか発見することや評価値を適切にあたえることはゲームの知識が必要であり困難が多い。本研究では、評価関数に問題がある局面では勝ち易さを適切に評価できず、勝率と評価関数との関係に歪みが生じていることに着目し、条件毎に勝率と評価値のグラフを描くことにより評価関数の問題点をを発見することを提案する。本手法を将棋において先手と後手の進行度差がある局面に対して用い、プレイヤ毎の進行度を評価しない評価関数には問題があることを示した。さらに、その問題を解決するため、進行度差を評価に含めた評価関数を設計し、値の自動的な調整を行った。そして、自己対戦によって調整後のプログラムの棋力の向上を確認し、本手法の有効性を示した。
著者
金子 知適
出版者
東京大学
雑誌
若手研究(B)
巻号頁・発行日
2007

大量の経験的データから学習した知識を利用する効率的な探索技術の研究を行った.探索においては対象の知識を活用することで効率が向上することが知られている.本研究により棋譜に残された人間の判断履歴から,80万次元以上のパラメータを調整し計算機が活用可能な知識とすることが可能となった.研究成果を将棋プログラムへと応用したところ,現時点で最も強いコンピュータプログラムを作成することができた.このことは本研究の有用性を示していると考えられる.