著者
櫻木 敦 渕田 孝康 KATHY THI AUNG
出版者
電気・情報関係学会九州支部連合大会委員会
雑誌
電気関係学会九州支部連合大会講演論文集 平成21年度電気関係学会九州支部連合大会(第62回連合大会)講演論文集
巻号頁・発行日
pp.396, 2009 (Released:2011-01-20)

強化学習の一つであるQ学習は目標達成時の報酬をもとに学習を行うが,未知の環境にはエージェントの行動を阻害する状態があることも考えられ,正の報酬だけでは対応できない.それは正の報酬の伝播が行われる前にエージェントの行動を阻害する状態に着いた場合には行動の手がかりがなく、障害を避けることができないからである.障害を避けるために負の報酬を与えることは可能であるが,従来のQ学習の更新式では次の状態の最大Q値の選択において,負のQ値は選ばれず伝播しない.そこで更新式に負の報酬の伝播を考慮させることでエージェントの行動を阻害する状態に対応する.