著者
甲野 佑 田中 一樹 奥村 純
出版者
一般社団法人 人工知能学会
雑誌
JSAI大会論文集
巻号頁・発行日
vol.2018, pp.1Z302, 2018-07-30

<p>高次な意思決定課題では発見により行動選択肢が無際限に拡張されうる.その場合,行動の特徴表現の自律的な獲得が重要になる.そこで本研究では状態遷移軌跡から行動表現を有限長のベクトルに埋め込み,強化学習に活用する学習フレームを提案する.具体的にはカードとボードゲームの要素を併せ持つ"逆転オセロニア"を例に,拡張されうる行動要素であるキャラクターの表現を暗黙的に獲得し,戦術の学習時に転用できる事を示す</p>

言及状況

外部データベース (DOI)

Twitter (1 users, 1 posts, 0 favorites)

こんな論文どうですか? 拡張されうる行動空間での特徴の表現学習を伴う価値関数の近似(甲野 佑ほか),2018 https://t.co/4v2KlgNyw5

収集済み URL リスト