快と不快を用いた報酬の形成と汎用性の可能性

3 0 0 0 OA 快と不快を用いた報酬の形成と汎用性の可能性

著者: 加藤雄貴 Yuki Kato
雑誌: SIG-AGI = SIG-AGI
巻号頁・発行日: vol.11, no.3, 2019-03-14

エージェントに快と不快の情報を導入することで、強化学習分野における汎用性の獲得を目指している。現在の強化学習では報酬は一般的にエンジニアが定義する情報であり、エージェントは設定された報酬に対して獲得に繋がった行動を価値として算出し、次回の試行時の行動選択に役立てる。しかし強化学習は特化型人工知能と呼ばれるように転移学習が困難という性質がある。本モデルでは、報酬としての快という情報を不快の解消として位置付けることで報酬情報を不快を発生させた事象と紐付け、エージェントに自律的に何が報酬(不快を解消させるのか)なのかという情報を獲得させるとともに、報酬情報を区別する能力を獲得させることで複数のタスクを同一のエージェントによって学習可能な状態にすることを目標としている。

2021-12-26 22:40:29
3 + 2 Twitter

http://id.nii.ac.jp/1004/00009905/

言及状況

Twitter (3 users, 4 posts, 2 favorites)

https://t.co/eQbUEoo9xg これとか

人工知能が人間の知能を模倣できるかみたいな話、perceptionというよりも快不快的な報酬系と嫌悪系の実装が難しいところに問題がありそうって考えていたらちゃんとそうゆう報酬系を実装するという研究があったね https://t.co/cOJbaRO0Nx

1 @be_Paprika

そうなんだけどドーパミン放出量を増減させる実際のトリガーって汎用性がないよね https://t.co/I1u3Q6UjaF

@hideman2009 欲求に付いては一般的な心理学的アプローチを個人的には極力排除しています。ホメオスタシス維持、生存戦略上必要な快／不快に基づく欲求発生と解消は辺縁系モデルのアルゴリズムでコンピューターに学習させることになるでしょう https://t.co/I1u3Q6UjaF

1 @hideman2009

3 0 0 0 OA 快と不快を用いた報酬の形成と汎用性の可能性

言及状況

Twitter (3 users, 4 posts, 2 favorites)

収集済み URL リスト