- 著者
-
小宮山 純平
本多 淳也
鹿島 久嗣
中川 裕志
- 雑誌
- 研究報告数理モデル化と問題解決(MPS) (ISSN:21888833)
- 巻号頁・発行日
- vol.2015-MPS-103, no.14, pp.1-8, 2015-06-16
バンディット問題 (multi-armed bandit problem) は,情報の活用と探索の間のトレードオフをモデル化した問題である.バンディット問題にはいくつかの亜種があるが,そのうち比較バンデイット問題 (dueling bandit problem) と呼ばれるものは,一対比較によるフィードバックを用いて最適化を行う.比較バンディット問題の枠組みを用いることによって,検索エンジンのランキング手法の比較や,人間の選好抽出の問題に対して,効率的な最適化を行うことができる.本研究では,比較バンディット問題における理論的な性能限界およびそれを達成するアルゴリズムを提案する.このアルゴリズムは,経験尤度を用いた通常のバンディット問題におけるアルゴリズム (本多,竹村,2010) の比較バンデイット問題への拡張である.提案手法を評価するため,検索エンジンの実データにおけるランキング手法の比較や,寿司データセット (神嶌,2003) などによる人間の選好抽出における性能を既存手法と比較する.