著者
金村 和美 力宗 幸男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. OIS, オフィスインフォメーションシステム (ISSN:09135685)
巻号頁・発行日
vol.104, no.68, pp.25-30, 2004-05-13
被引用文献数
1

本論文では、既に分類されたデータに基づいてWebページを自動分類する一手法を提案する。具体的には既分類のWebページから名詞を抽出し、文書ベクトルを作成する。その各文書ベクトルと未分類Webページの文書ベクトルとの類似度を測り、最も類似度が高かったWebページが属するカテゴリへ分類する。既分類データとしてYahooのカテゴリ及びそこに登録されているWebページを用いて分類を行なった結果、類似度が高かった上位20位前後のWebページに対して、カテゴリごとの類似度の和を求める方法がより良い正解率となる事がわかった。未知語やリンク先情報を分類に含めた場合と含めない場合においても実験し、最終的に従来の手法と同等、あるいはそれ以上の結果が得られた。