著者
加藤 雄貴 Yuki Kato
雑誌
SIG-AGI = SIG-AGI
巻号頁・発行日
vol.11, no.3, 2019-03-14

エージェントに快と不快の情報を導入することで、強化学習分野における汎用性の獲得を目指している。現在の強化学習では報酬は一般的にエンジニアが定義する情報であり、エージェントは設定された報酬に対して獲得に繋がった行動を価値として算出し、 次回の試行時の行動選択に役立てる。しかし強化学習は特化型人工知能と呼ばれるように転移学習が困難という性質がある。本モデルでは、報酬としての快という情報を不快の解消として位置付けることで報酬情報を不快を発生させた事象と紐付け、エージェントに自律的に何が報酬(不快を解消させるのか)なのかという情報を獲得させるとともに、報酬情報を区別する能力を獲得させることで複数のタスクを同一のエージェントによって学習可能な状態にすることを目標としている。