著者
甲野 佑 田中 一樹 奥村 純
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第32回全国大会(2018)
巻号頁・発行日
pp.1Z302, 2018 (Released:2018-07-30)

高次な意思決定課題では発見により行動選択肢が無際限に拡張されうる.その場合,行動の特徴表現の自律的な獲得が重要になる.そこで本研究では状態遷移軌跡から行動表現を有限長のベクトルに埋め込み,強化学習に活用する学習フレームを提案する.具体的にはカードとボードゲームの要素を併せ持つ“逆転オセロニア”を例に,拡張されうる行動要素であるキャラクターの表現を暗黙的に獲得し,戦術の学習時に転用できる事を示す

2 0 0 0 OA 認知的満足化

著者
高橋 達二 甲野 佑 浦上 大輔
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.31, no.6, pp.AI30-M_1-11, 2016-11-01 (Released:2016-12-26)
参考文献数
26
被引用文献数
3

As the scope of reinforcement learning broadens, the number of possible states and of executable actions, and hence the product of the two sets explode. Often, there are more feasible options than allowed trials, because of physical and computational constraints imposed on the agents. In such an occasion, optimization procedures that require first trying all the options once do not work. The situation is what the theory of bounded rationality was proposed to deal with. We formalize the central heuristics of bounded rationality theory named satisficing. Instead of the traditional formulation of satisficing at the policy level in terms of reinforcement learning, we introduce a value function that implements the asymmetric risk attitudes characteristic of human cognition. Operated under the simple greedy policy, the RS (reference satisficing) value function enables an efficient satisficing in K-armed bandit problems, and when the reference level for satisficing is set at an appropriate value, it leads to effective optimization. RS is also tested in a robotic motion learning task in which a robot learns to perform giant-swings (acrobot). While the standard algorithms fail because of the coarse-grained state space, RS shows a stable performance and autonomous exploration that goes without randomized exploration and its gradual annealing necessary for the standard methods.
著者
小澤 優太 甲野 佑 高橋 達二
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.28, 2014

人工蜂コロニー(ABC)アルゴリズムは採餌探索行動における分業を表現した関数最適化手法の1つで,特に高次元空間に対して優れた手法である.しかし,その探索手法はランダム性に大きく依存している.現在,生物的な因果関係の推論傾向が情報の探索と活用のバランシングに有効である事が知られており,本研究ではそのような推論傾向を組み込むことで,知識の探索と利用を自律的に調整するABCアルゴリズムを考案した.
著者
南 朱音 小林 優希奈 甲野 佑 高橋 達二
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第34回 (2020) (ISSN:27587347)
巻号頁・発行日
pp.2I5GS203, 2020 (Released:2020-06-19)

複雑な入力情報から取るべき行動を推論する深層強化学習は,強力な関数近似器での学習(Deep Learning)が発展の核となった.強化学習には教師あり学習とは異なり,自分でデータ収集しなければならない探索の概念を持ち,単純な強化学習の一種であるバンディット問題では最適な探索アルゴリズムが明らかになっている.しかしながら関数近似を用いる文脈付きバンディット問題では最適な探索が保証されなくなる.そこで本研究では従来とは異なる探索アルゴリズムの検証を行った.人間は報酬の目標水準を持ち,それを満たす行動を速やかに探索する性質(満足化)が知られている.この満足化を応用した文脈付きバンディットアルゴリズムに応用した linear Risk-sensitive Satisficing (LinRS) は人工的な分布を用いた課題では既存アルゴリズムと比較しても良い成績が得られている.本研究では実世界から実測データでの文脈付きバンディット問題での検証を行った.人工データより実世界データの成績は悪化すると言われており,その対処法として LinRS における適切な探索のための目標水準の調整について議論する.
著者
吉井 佑輝 甲野 佑 高橋 達二
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集
巻号頁・発行日
vol.2020, pp.2I5GS202, 2020

<p>人間にはある目的基準を超える収益が得られる手順を発見するとそれに満足し,探索を打ち切るといった満足化と呼ばれる意思決定傾向が存在する.この傾向を強化学習に応用したのが Risk-sensitive Satisficing (RS) である.深層強化学習は人間が行うようなレトロゲームのプレイや運動制御などへ強化学習の適用範囲を広げた.しかし,情報を自ら探索しなければならない点は変わらない一方で,ニューラルネットによる関数近似を用いることで効率的な探索に関する議論を困難にしている.そこで RS を強化学習に反映することで素早く合目的的な探索を実現することが可能になると考えられ,実際に RS はバンディット問題のようなトイタスクの強化学習課題において優れた成績を有している.本研究では RS を関数近似に拡張した Linear RS(LinRS) における目的基準の設定について検証を行うために,文脈付きバンディット問題での実験を行う.それにより,既存アルゴリズムに比べて確率的な環境で優れた成績を有することが分かった.また,基準値と近似誤差の関係から,目的水準に補正が必要であることが分かった.</p>
著者
甲野 佑 田中 一樹 岡田 健 奥村 エルネスト 純
雑誌
デジタルプラクティス (ISSN:21884390)
巻号頁・発行日
vol.10, no.2, pp.351-367, 2019-01-15

複数のプレイヤーからなる対戦ゲームを楽しんでもらう場合,ある1つのアイテムを持っているなどで勝敗が偏ってしまうゲームバランスは好ましくない.そのような極端な事態を招かないため,ゲームバランスについてはリリース前に慎重な検討と調整がなされる.しかしながら近年のゲームは継続的な更新により要素(キャラクター,アイテムなど)が追加され,ルールが随時変化していく.そのため制作者の意図しないゲームバランスの変化を引き起こす可能性が問題になっている.そこで我々はリリース前における正確なゲームバランス評価を目的として深層学習,特に深層強化学習に着目した.ただし近年のゲームに適用する場合,要素の追加にしたがって伸長する入出力ベクトルの大きさの扱いが問題となる.本研究ではアプリ型対戦ゲーム“逆転オセロニア”への適用を目的に,膨大な種類数のキャラクター要素の特徴ベクトルを自然言語処理由来の機械学習手法で表現学習し,深層強化学習に転用してゲームのプレイ戦術を学習する手法を提案した.また,ゲームバランス調整への深層学習応用を目指す中で得られた,他ゲームタイトルでのゲームバランス調整にも共通する知見,課題についてまとめた.
著者
甲野 佑 田中 一樹 奥村 純
出版者
一般社団法人 人工知能学会
雑誌
JSAI大会論文集
巻号頁・発行日
vol.2018, pp.1Z302, 2018-07-30

<p>高次な意思決定課題では発見により行動選択肢が無際限に拡張されうる.その場合,行動の特徴表現の自律的な獲得が重要になる.そこで本研究では状態遷移軌跡から行動表現を有限長のベクトルに埋め込み,強化学習に活用する学習フレームを提案する.具体的にはカードとボードゲームの要素を併せ持つ"逆転オセロニア"を例に,拡張されうる行動要素であるキャラクターの表現を暗黙的に獲得し,戦術の学習時に転用できる事を示す</p>