著者
板倉 弘幸 田村 雅樹 若木 利子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告知能と複雑系(ICS) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.85, pp.147-154, 2004-08-05

近年,WWW上のWebページは爆発的に増加しつつあり,それと共に ディレクトリースタイルの検索エンジンを持つYahooサービスのようなポータルサイトでは,膨大なWebページを複数カテゴリーに自動分類するニーズが高まりつつある.本研究では Webページ分類に貢献する適切な単語素性(feature)の撰択法に関して,ラフ集合理論の有効性を調べた.計算機実験による性能評価より,ラフ集合理論援用による属性選択法と分類器(classifier)として線形核のSupport Vector Machine を用いた組み合わせは,実用に耐えうる良い分類精度を保証しつつ,アドホックな閾値に依存しない高い次元圧縮(属性選択)を可能にするなどの結果が得られた.Recently Web-pages on World Wide Web are explosively increasing, and it is now required for portal sites such as Yahoo! service having a directory-style search engine to classify Web-pages into many categories automatically. This paper investigates how rough set theory can help select relevant features for Web-page classification. Our experimental results show that the combination of the rough set-aided feature selection method and the Support Vector Machine with linear kernel is quite useful for the practical purpose to classify Web-pages into many categories because the performance gives the acceptable accuracy achieving high dimensionality reduction without depending on arbitrary thresholds for the feature selection.