著者
佐藤尚 内部 英治 銅谷 賢治
雑誌
情報処理学会論文誌数理モデル化と応用(TOM) (ISSN:18827780)
巻号頁・発行日
vol.48, no.SIG19(TOM19), pp.55-67, 2007-12-15

コミュニケーションの原型は,個体が環境や他の個体との相互作用において,報酬の獲得や適応度の向上に寄与する形で発現したと考えられる.本研究では,報酬最大化を目的とする強化学習エージェントが,余剰な行動と感覚の自由度をコミュニケーショのために使うことを学習できるための条件を,2個体が互いに相手の縄張りに入ると報酬を得るが衝突すると罰を受けるというゲームにより検証した.このゲームでは,コミュニケーションと協調行動のそれぞれが必須ではないが,発光行動を使えるエージェント間では,互いにその光を信号として利用することで衝突を避け,報酬を獲得し合う協調行動の創発が観察された.信号の表現の仕方には多様性が見られ,また作業記憶を持つエージェント間では,信号を送る側とそれに従う側という役割分化も見られた.これは,コミュニケーションと協調行動が必須ではない状況において,意味と信号の任意の対応付けによるコミュニケーションが,コミュニケーションの達成そのものを目的としなくても一般的な行動学習の枠組みにより創発しうることを示す初めての知見である.
著者
内部 英治 銅谷 賢治
出版者
日本神経回路学会
雑誌
日本神経回路学会誌 (ISSN:1340766X)
巻号頁・発行日
vol.14, no.4, pp.293-304, 2007-12-05 (Released:2008-11-21)
参考文献数
57
被引用文献数
1

近年の人工ニューラルネットや機械学習の発展により, 学習能力を持った様々なロボットや人工エージェントなどが開発されている. しかしロボットに目的の行動をうまく学習させるためには (1) メタパラメータ, (2) 報酬関数, (3) 状態表現, (4) 学習アルゴリズムの選択, といった問題を注意深く設計しなければならない. 多くの人工システムでは, それらは設計者が試行錯誤を通して設定していたが, 人間やそれ以外の動物は多様に変化する環境下でも新しい行動を次々と学習している. このようなメタな学習を実現している計算理論とは何かを解明することがサイバーローデントプロジェクトの目的である. 本稿では我々の研究を中心として, 上記4つの問題を自律的に調整・獲得するための手法について概説する.