著者
加藤 雄貴 Yuki Kato
雑誌
SIG-AGI = SIG-AGI
巻号頁・発行日
vol.11, no.3, 2019-03-14

エージェントに快と不快の情報を導入することで、強化学習分野における汎用性の獲得を目指している。現在の強化学習では報酬は一般的にエンジニアが定義する情報であり、エージェントは設定された報酬に対して獲得に繋がった行動を価値として算出し、 次回の試行時の行動選択に役立てる。しかし強化学習は特化型人工知能と呼ばれるように転移学習が困難という性質がある。本モデルでは、報酬としての快という情報を不快の解消として位置付けることで報酬情報を不快を発生させた事象と紐付け、エージェントに自律的に何が報酬(不快を解消させるのか)なのかという情報を獲得させるとともに、報酬情報を区別する能力を獲得させることで複数のタスクを同一のエージェントによって学習可能な状態にすることを目標としている。

言及状況

Twitter (3 users, 4 posts, 2 favorites)

https://t.co/eQbUEoo9xg これとか
人工知能が人間の知能を模倣できるかみたいな話、perceptionというよりも快不快的な報酬系と嫌悪系の実装が難しいところに問題がありそうって考えていたら ちゃんとそうゆう報酬系を実装するという研究があったね https://t.co/cOJbaRO0Nx
そうなんだけどドーパミン放出量を増減させる実際のトリガーって汎用性がないよね https://t.co/I1u3Q6UjaF
@hideman2009 欲求に付いては一般的な心理学的アプローチを個人的には極力排除しています。ホメオスタシス維持、生存戦略上必要な快/不快に基づく欲求発生と解消は辺縁系モデルのアルゴリズムでコンピューターに学習させることになるでしょう https://t.co/I1u3Q6UjaF

収集済み URL リスト