著者
松本 一則 服部 元 小川 圭介 橋本 真幸
出版者
一般社団法人情報処理学会
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2013, no.22, pp.1-3, 2013-07-15

web サイトの内容や分野を表すジャンルコードを計算機で推定するジャンル推定技術がマーケティング分野で重要になってきている.一般的に同技術の場合,ジャンル推定に適した単語をあらかじめ求めておき,推定対象ページに現れるそれらの語の出現頻度を基とした特徴ベクトルでジャンル判定を行う.しかし必要な単語数は膨大で識別器の学習は通常困難である.そこで,情報量基準で選択した最小限の単語数でジャンル別 SVM を構築し,同 SVM の各識別結果から総合判定を行う 2 段階 SVM を実現した.さらにエラー識別に役立つ語を学習させた SVM を第 1 段に追加する工夫で精度を向上させた。Automatic genre estimation for specified web sites or web pages is important for web marketing. In general, bag of words (BOWs) extracted from specified web pages are inputted to the genre discriminator. However, the number of necessary words is huge for the discriminator. Thus authors propose genre-specific words extraction based on Information Criteria, and a practical 2-stage SVMs which are ensemble with genre-specific SVMs. We also show SVMs discriminating errors of another SVM improve the accuracy of the estimation.