- 著者
-
佐藤 誠
- 出版者
- 社団法人人工知能学会
- 雑誌
- 人工知能学会誌 (ISSN:09128085)
- 巻号頁・発行日
- vol.16, no.6, 2001-11-01
強化学習は意思決定方法(政策)を獲得するための機械学習の枠組みであり, 環境モデルを想定した学習理論に裏付けられている点が特徴の一つである.しかし, これまでの強化学習手法は政策評価規範として利得の期待値しか利用していないという問題点があった.一般にマルコフ決定過程などの環境モデルにおいて得られる利得は確率変数であるため, 利得確率分布の情報を最大限に利用することで, より洗練された政策の獲得が期待できる.そこで本論文では, 利得のばらつきを考慮した強化学習の枠組みを提案することを目的とし, 与えられたリスク水準に応じて利得のばらつきを抑えつつ報酬を最大化する学習アルゴリズムを提供している.1章と2章では, 研究の背景と目的について述べた後, 対象とするマルコフ決定過程, 政策評価規範として採用するvariance pena1ized(VP)規範, および, VP規範を用いた場合の決定問題の性質をまとめ, 本研究の接近法について論じている.3章では, 無限期問の割引総報酬最大化と無限期間の平均報酬最大化の枠組みにおいて, VP規範に基づいた勾配定理と, 勾配推定に必要なVa1ue関数の再帰的方程式を導出している.4章では, 利得の分散を推定するためのTD法の収束性を示した後, 3章で導いた勾配定理を利用した新しい学習アルゴリズムを提案している.5章〜7章では, 提案したアルゴリズムを機械整備問題, 通信ネットワーク制御問題, および, 金融商品取引問題にそれぞれ適用している.