著者
鳥居 拓馬 日高 昇平 真隅 暁
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第28回 (2014)
巻号頁・発行日
pp.4H13, 2014 (Released:2018-07-30)

従来、社会的ジレンマのモデルとしてゲーム理論を用い、協調行動の発生が議論されてきた。本研究では、各プレイヤーが報酬により行動を変える強化学習の枠組みを仮定し、代表的なゲームの一つである繰り返し囚人のジレンマを検討した。すべてのプレイヤーの行動履歴を状態遷移行列で表現し、そのダイナミクスを分析した。その結果、より長い行動履歴に基づき学習するほど、協調行動が安定して発生することが明らかになった。

言及状況

外部データベース (DOI)

Twitter (2 users, 2 posts, 0 favorites)

適応的に行動を変化させる学習プレイヤ同士のゲームのひとつとして,強化学習プレイヤの繰り返し囚人のジレンマをとりあげ,有限マルコフ過程として分析した。 https://t.co/Y9pLNvu1B4 https://t.co/b6F4EhnKIh

収集済み URL リスト