著者
五十嵐 治一 森岡 祐一 山本 一将
雑誌
研究報告ゲーム情報学(GI)
巻号頁・発行日
vol.2013-GI-30, no.6, pp.1-8, 2013-06-21

本論文では強化学習の一手法である方策勾配法をコンピュータ将棋に適用する方法を考察した.方策勾配法は,報酬や方策にマルコフ性の制限なく自由に設計することができるという大きなメリットがある.本論文では,最初に全 leaf 局面の局面評価値をその局面への遷移確率値で重み付けた期待値を用いた指し手評価方式を提案する.これをベースに,探索木の各ノードにおける指し手の選択法として Boltzmann 分布に基づくソフトマックス戦略を採用した場合の局面評価関数に含まれるパラメータの学習則を導出した.しかし,探索や学習時の計算量が膨大となるため,3 つの近似計算法を考案した.次に,探索時にシミュレーション方策を用いてモンテカルロ探索を行う場合や,探索の深さを制御する場合のために,局面評価関数とシミュレーション方策の両者を同時に学習する学習則を方策勾配法により導出した.さらに,この方策勾配の計算法を利用すると,局面ごとに正解手が既知の場合の教師付学習も可能であることを示し,実際に学習則を導出した.
著者
五十嵐 治一 森岡 祐一 山本 一将
雑誌
ゲームプログラミングワークショップ2014論文集
巻号頁・発行日
vol.2014, pp.90-94, 2014-10-31

コンピュータ将棋において探索木の枝を成長させる際に,その枝までの探索経路に沿った指し手の累積的な選択確率の値を基に探索制御を行う方法を提案する.このときの指し手の選択には,将棋の指し手に関するヒューリスティクスを組み込んだシミュレーション方策を使用する.この際,枝成長を決定論的に行う場合と確率的に行う2つの場合を考えた.さらに,本手法ではこのシミュレーション方策中のパラメータを強化学習の一手法である方策勾配法により学習する.
著者
吉野 拓真 五十嵐 治一 川島 馨
雑誌
ゲームプログラミングワークショップ2020論文集
巻号頁・発行日
vol.2020, pp.16-21, 2020-11-06

選択探索の一種として,モンテカルロソフトマックス探索が提案されている.一般に,大規模ニューラルネットワークモデルによる評価関数を利用する場合,計算に時間がかかることから,αβ探索のような全幅探索よりは,選択探索の方が向いている. 特に,モンテカルロソフトマックス探索においては,兄弟ノード局面をまとめて評価する際に,GPU による並列計算を用いれば,評価関数が大規模なニューラルネットワークモデルであっても容易に並列化できる可能性がある.本研究では,dlshogi のソースコードを改変し,モンテカルロソフトマックス探索とニューラルネットワークモデルの評価関数を組み合わせたプログラムを作成した.特に,ニューラルネットワークモデルの入力層に提示する局面の特徴量表現を工夫することにより,GPU で兄弟局面を同時に並列計算する際の処理時間を短縮することを試みた.さらに,ノード選択方策にPolicy Network の出力値を取り入れることにより,探索精度の向上を試みた.
著者
秋山 英久 中島 智晴 五十嵐 治一
出版者
Japan Society for Fuzzy Theory and Intelligent Informatics
雑誌
知能と情報 (ISSN:13477986)
巻号頁・発行日
vol.32, no.2, pp.691-703, 2020-04-15 (Released:2020-04-15)
参考文献数
42

本稿では,RoboCup サッカーシミュレーション2Dを題材として,ゲームAIにおける局面評価の表現法と学習法を概説する.一般的に,サッカーゲームは動的環境下におけるマルチエージェントシステムの代表的な例として知られている.そこでまず,RoboCupサッカーシミュレーションをゲーム AI 研究における他のベンチマークテストと比較し,類似点や相違点について議論する.次に,サッカープレイヤが行動選択をするメカニズムとして行動連鎖の考えに基づいた探索法を示す.それは,チェスや将棋プログラムと同じように探索木と局面評価による状況の「読み」に基づいており,チームメイトとの協調行動を計画し,選択することが可能である.そして,行動連鎖生成で用いる局面評価モデルを機械学習の枠組みにより構築する方法を様々な事例をあげながら概観する.
著者
市毛 竣 五十嵐 治一 石原 聖司
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第36回 (2022)
巻号頁・発行日
pp.1D1GS203, 2022 (Released:2022-07-11)

近年のAIに関する課題として,機械学習の推論結果の内部のブラックボックスが挙げられる.その解決アプローチとして,人間の主観に沿うルールにより行うファジィ制御と強化学習の融合は有効な手法だといえる. ファジィ制御と強化学習の融合方式は以前から多くの試みがあった.五十嵐らはファジィ制御ルールを方策に持つ方策勾配法を提案した.そこではルール重みやメンバーシップ関数内部パラメータの学習則を述べている. 本研究では,自動車の速度制御問題の事例において,メンバーシップ関数をシグモイド関数で近似し,シグモイド関数内のパラメータ及びルール重みの学習を行った.学習実験の結果,適切なパラメータ値を得ることを確認した.しかし,この場合もメンバーシップ関数の概形は人間が設計していた.そこで,メンバーシップ関数をニューラルネットワークで近似し,適切なメンバーシップ関数の形状をゼロから学習できるか試みた.学習実験の結果,ランダムなパラメータの初期値から人間が設計したメンバーシップ関数の形状によく似た関数形を得ることができた.これは,本学習方式により,人間のファジィ的な概念をゼロから獲得できることを示唆している.
著者
原 悠一 五十嵐 治一 森岡 祐一 山本 一将
雑誌
ゲームプログラミングワークショップ2016論文集
巻号頁・発行日
vol.2016, pp.108-111, 2016-10-28

ソフトマックス戦略に基づくシンプルな探索方式を提案し,コンピュータ将棋へ適用した実験結果を報告する.本探索方式では探索木中のノードの評価値は子ノードの評価値を選択確率で重み付けした期待値であり,再帰的に定義される.選択確率は選択先のノードの評価値を目的関数とするボルツマン分布を用いる.探索は実現確率を良さの度合いとする最良優先探索であり,深さの制御には実現確率の閾値を用いた反復深化を用いる.各ノードへの実現確率はルートノードからの選択確率の積で定義する.したがって,将棋の有効な指し手に関するヒューリスティクスは使用せず,最終的には局面評価関数だけに依存する.本発表ではこの探索方式の詳細と評価実験の結果を報告する.
著者
五十嵐 治一 川人 光男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.77, no.6, pp.1104-1113, 1994-06-25
被引用文献数
5

視覚情報処理における光学の逆問題の解法として,標準正則化理論によるアプローチが有名である.しかし標準正則化理論ではエネルギー関数が2次形式に制限されており,正則化パラメータも経験的に定めているのが実情である.本論文では,こうした視覚情報処理における逆問題のみならず,一般的な逆問題の解法として2層確率場モデルを用いた一つの方法を提案する.2層確率場モデルでは,二つの確率場が階層構造をなしており,下層の確率場の状態が与えられたときに上層の確率場の状態の起こりやすさを表した条件付き確率によって緩やからに結合されている.本方法では,シミュレーテッドアニーリングによりエネルギー関数の最小状態を求めると共に,正則化パラメータなどのエネルギー関数中の重み係数の値を適切な値に自動調節することが可能である.例題として,原画像に関する正確なエッジ情報を用いて観測画像から原画像を復元する.2次元濃淡画像の修復問題を取り上げた.アニーリングによるエネルギー最小状態の探索処理と,エネルギー関数中の重み係数の調整アルゴリズムは,ともに並列化されており,SIMD型の並列計算機であるコネクションマシン(CM-2)を用いて大きな画像(128×64)を対象にすることが可能となった.計算機実験により,本論文で提案する逆問題の解法の正当性を検証することができた.
著者
五十嵐 治一 黒瀬 能聿 五百井 清
出版者
芝浦工業大学
雑誌
基盤研究(C)
巻号頁・発行日
2003

ロボット・フィールド上方に般若したビデオカメラ(グローバルビジョン),ホストPC1台(画像処理サーバ,通信中継サーバ,リモートブレイン用プログラム),ホストPCに内蔵された画像キャプチャーボード,ロボット5台から構成されるロボットシステムを構築し,次の4つの研究を行った.第1に,ロボットのマーカ認識において,照明条件に頑健な色抽出法の研究を行った.この目的のために,背景色(床画の緑色)とマーカの色(黄と青の2色),ボールの色(オレンジ)の閥値データベースを利用した方式を考案し,評価実験を行った.特に,濃い影の領域を人工的に生成し,影の存在するロボット・フィールド上での3色の抽出も試みた.実験では,商い正抽出率と,低い誤抽出率が得られ,提案方式の有効性を確認することができた.第2に,ロボス社製の4輪全方向走行型ロボットを使用して,走行制御の学習法に関する研究を行った.学習法としては強化学習の一種であるQ学習を用いた.具体的な例題として,ロボット1台が静止状態から目標点へ直進するタスクを取り上げて学習実験を行った.実験の結果,直線軌道の角度誤差を半減させるという効果を得ることができた.第3に,マルチエージェント・システムにおける行動学習法として,方策勾配法を用いた学習方式を考案した.応用例として,獲物と複数ハンターとによる「追跡問題」,カーリングにおける簡単な2体力学問題の逆間題,サッカーエージェントにおけるキッカーとレシーバとの協調行動問題を取り上げて,学習実験を行い,その有効性を検証した.第4に,移動ロボットの誘導制御に用いるために指示位置情報が取得可能な小型ポインティング装置を開発した.