- 著者
-
板倉 弘幸
田村 雅樹
若木 利子
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告知能と複雑系(ICS) (ISSN:09196072)
- 巻号頁・発行日
- vol.2004, no.85, pp.147-154, 2004-08-05
近年,WWW上のWebページは爆発的に増加しつつあり,それと共に ディレクトリースタイルの検索エンジンを持つYahooサービスのようなポータルサイトでは,膨大なWebページを複数カテゴリーに自動分類するニーズが高まりつつある.本研究では Webページ分類に貢献する適切な単語素性(feature)の撰択法に関して,ラフ集合理論の有効性を調べた.計算機実験による性能評価より,ラフ集合理論援用による属性選択法と分類器(classifier)として線形核のSupport Vector Machine を用いた組み合わせは,実用に耐えうる良い分類精度を保証しつつ,アドホックな閾値に依存しない高い次元圧縮(属性選択)を可能にするなどの結果が得られた.Recently Web-pages on World Wide Web are explosively increasing, and it is now required for portal sites such as Yahoo! service having a directory-style search engine to classify Web-pages into many categories automatically. This paper investigates how rough set theory can help select relevant features for Web-page classification. Our experimental results show that the combination of the rough set-aided feature selection method and the Support Vector Machine with linear kernel is quite useful for the practical purpose to classify Web-pages into many categories because the performance gives the acceptable accuracy achieving high dimensionality reduction without depending on arbitrary thresholds for the feature selection.