著者
新美 真 伊藤 孝行
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.56, no.10, pp.1959-1967, 2015-10-15

本研究では,多腕バンディット問題を拡張した予算制限多腕バンディット問題を取り扱う.多腕バンディット問題とは,複数台あるスロットマシンをプレイするギャンブラを模した問題である.予算制限多腕バンディット問題は多腕バンディット問題の拡張の1つで,コストと予算による制約が存在する.既存の予算制限多腕バンディット問題では静的な報酬確率分布のみを仮定しており,動的な報酬確率分布については想定していない.本研究では予算制限多腕バンディット問題および予算制限バンディットアルゴリズムを拡張し,動的な報酬確率分布を想定する.予算制限多腕バンディット問題の拡張にともない,既存の予算制限バンディットアルゴリズムを拡張したD-KUBEおよびSW-KUBEを提案する.動的な報酬確率分布による問題空間を設定し,既存手法であるKUBEと提案手法であるD-KUBEおよびSW-KUBEとの比較実験を行う.実験結果から動的な報酬確率分布において,提案手法であるD-KUBEおよびSW-KUBEは既存手法であるKUBEと比較して改善されることを確認する.