Ceek.jp Altmetrics (α ver.)
文献ランキング
合計
1ヶ月間
1週間
1日間
文献カレンダー
新着文献
すべて
2 Users
5 Users
10 Users
新着投稿
Yahoo!知恵袋
レファレンス協同データベース
教えて!goo
はてなブックマーク
OKWave
Twitter
Wikipedia
検索
ウェブ検索
ニュース検索
ホーム
文献一覧: 櫻木 敦 (著者)
1件
1
0
0
0
OA
負の報酬を考慮したQ学習
著者
櫻木 敦
渕田 孝康
KATHY THI AUNG
出版者
電気・情報関係学会九州支部連合大会委員会
雑誌
電気関係学会九州支部連合大会講演論文集 平成21年度電気関係学会九州支部連合大会(第62回連合大会)講演論文集
巻号頁・発行日
pp.396, 2009 (Released:2011-01-20)
強化学習の一つであるQ学習は目標達成時の報酬をもとに学習を行うが,未知の環境にはエージェントの行動を阻害する状態があることも考えられ,正の報酬だけでは対応できない.それは正の報酬の伝播が行われる前にエージェントの行動を阻害する状態に着いた場合には行動の手がかりがなく、障害を避けることができないからである.障害を避けるために負の報酬を与えることは可能であるが,従来のQ学習の更新式では次の状態の最大Q値の選択において,負のQ値は選ばれず伝播しない.そこで更新式に負の報酬の伝播を考慮させることでエージェントの行動を阻害する状態に対応する.