著者
南 朱音 小林 優希奈 甲野 佑 高橋 達二
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第34回 (2020) (ISSN:27587347)
巻号頁・発行日
pp.2I5GS203, 2020 (Released:2020-06-19)

複雑な入力情報から取るべき行動を推論する深層強化学習は,強力な関数近似器での学習(Deep Learning)が発展の核となった.強化学習には教師あり学習とは異なり,自分でデータ収集しなければならない探索の概念を持ち,単純な強化学習の一種であるバンディット問題では最適な探索アルゴリズムが明らかになっている.しかしながら関数近似を用いる文脈付きバンディット問題では最適な探索が保証されなくなる.そこで本研究では従来とは異なる探索アルゴリズムの検証を行った.人間は報酬の目標水準を持ち,それを満たす行動を速やかに探索する性質(満足化)が知られている.この満足化を応用した文脈付きバンディットアルゴリズムに応用した linear Risk-sensitive Satisficing (LinRS) は人工的な分布を用いた課題では既存アルゴリズムと比較しても良い成績が得られている.本研究では実世界から実測データでの文脈付きバンディット問題での検証を行った.人工データより実世界データの成績は悪化すると言われており,その対処法として LinRS における適切な探索のための目標水準の調整について議論する.