- 著者
-
田中 沙織
銅谷 賢治
岡田 剛
上田 一貴
岡本 泰昌
山脇 成人
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会技術研究報告. NC, ニューロコンピューティング (ISSN:09135685)
- 巻号頁・発行日
- vol.102, no.157, pp.37-42, 2002-06-20
強化学習において「メタパラメタ」の設定は非常に重要かつ困難な問題である.本研究では神経修飾物質のセロトニンが報酬予測の時間スケールを決定するという仮説の検証に向けた準備実験を行った.長期と短期の報酬予測を行うタスクを用意し,実行中の脳活動をfMRIにより測定したところ,長期の報酬予測では視床下核,視床背内側核,淡蒼球などの基底核と,皮質では帯状回後部,前頭前野,頭頂後頭側頭連合野に顕著な活動が見られた.これに対し,短期の報酬予測では被核,帯状回前部に目立った活動が見られた。これらの結果は,時間スケールの異なる報酬予測は,異なるネットワークを介して行われていることを示唆していた。さらに強化学習理論に基づいた解析を行ったところ,長期の報酬の予測誤差に関連する部位は視床下核,淡蒼球であった.この結果は,大脳基底核の強化学習モデルを支持するとともに,さらに機能ごとに詳細化されたモデルを構築するうえで重要な手がかりになることと思われる.