佐々木 稔 新納 浩幸
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
vol.2007, no.76, pp.109-114, 2007-07-25

ディレクトリ型の検索サービスはあらかじめ Web ページが項目別にまとめられているので、初心者でも簡単に WWW (World Wide Web) 検索をすることができる。このようなサービスを運営する側は Web ディレクトリへのサイト登録や分類、管理といった作業を人手により行っているため、膨大な Web ページを処理することが困難となる。そのため、我々は人手で行っている Web ディレクトリの管理作業を自動化するシステムの構築を目指している。これまで、サイトの内容語を扱わず、ホームページに記述された meta タグの name 属性値である keyword と description をキーワードとして階層のトップレベルで分類を行い、その結果として分類精度が 82% となり、本文を利用した場合の 55% を大幅に上回る分類性能を得ることができた。本稿では、これまでトップレベルで行っていた分類を拡張し、ディレクトリ階層全体を対象として Web サイトを分類する手法について述べる。階層構造全体を対象とすることで、より現実的で、実用的な Web ディレクトリの構築を行うことが可能となる。階層的な分類においても keyword、description 属性値をキーワードとして利用することの有効性を確かめるために、未分類のデータを利用して実験を行った結果、meta タグのみをキーワードとして利用したシステムは平均 62.7% の分類精度を得ることができた。比較として、meta タグを使わずに HTML 文書の本文を利用した場合の分類結果を求めると 42.3% であった。これより、階層的な分類においても HTML 文書の本文を利用するより meta タグのみを利用した方が有効であることが分かった。また、平均精度が 60% を超えていることから、半自動での Web ディレクトリの構築が可能であると考えられる。A web directory is a directory on the World Wide Web. For example, Yahoo! Directory and Dmoz are well known web directories. Some categories have a lot of web site links across an extensive range of topics. So we browse the categories below to find helpful resources and information. The web directories are created and maintained by human volunteers who are experts in particular categories. So many submissions of registering URLs are delayed due to not selecting the most specific category for them. In our research, we construct a system of automatic classification into a web directory which is maintained by human. In former experiments, the keywords and the description value of the meta tag in HTML documents are very efficient for Web site classification and the effects of the common words cause misclassification of Web sites. In this paper, we describe a classification system for hierarchical web directory structure. Using the whole directory hierarchy, we consider that the system enables to construct a practical and useful web directory. To evaluate the efficiency of this system based on the values of meta tag, we make an experiment on classifying web sites into the Dmoz directory using the web site registered in the Yahoo! directory. As the results of these experiments, the average precision using meta tag is about 62.7% and that using text of HTML document is about 42.3%. The precision using meta tag is higher than using text and we find the efficiency of the meta tag in the hierarchical classification as well as the classification to flat categories.


はてなブックマーク (1 users, 1 posts)

収集済み URL リスト