著者
後藤康路 油井誠 横山昌平 小島功 石川博
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2012, no.16, pp.1-6, 2012-11-12

本論文では, KDDcup 2012 track2 の商用検索エンジンの大量検索ログからの広告クリック率予測タスクを MapReduce 処理系である Hadoop 上で確率的勾配降下法 (Stochastic Gradient Descent) を用いて解いた事例を示し,大規模機械学習を実践的システムに適用したことにより得られた知見を示す.本論文の核となる貢献は,確率的勾配降下法による大規模なオンライン学習を Hive/Pig 上でそれぞれ実現した事例を示し,課題となる問題とその対処法などを明らかにすることにある.また, Hadoop 操作系として代表的な Hive と Pig について,それぞれの特徴,言語体系の違いによる学習器の実装への影響,性能差を述べる.