著者
其田 憲明 神谷 匠 高橋 達二
出版者
人工知能学会
雑誌
2019年度 人工知能学会全国大会(第33回)
巻号頁・発行日
2019-04-08

人間は個人での試行錯誤的な学習だけではなく,他者の成功情報を受け取ることで学習をより促進させている.ここには他者の行動の模倣や結果の再現といった社会的な戦略が存在する.強化学習における他エージェントとの情報共有法としてはしばしば行動価値の共有が行われているが,状態や状態行動対ごとの情報共有が必要であり,現実には難しいことが多々ある.少なくとも人間や動物の社会的学習のモデルとしては現実性に欠ける.我々は人間の満足化原理を強化学習に反映した,Risk-sensitive Satisficingと大局基準変換法を用いた大局的な基準値の共有によって,より少量の情報共有による効率的な社会的学習が可能であることを示す.