高野 元 久保 信也
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
vol.2000, no.10, pp.9-16, 2000-01-24

本報告は、WWW検索用のランキングシステムであるサイテーション・エンジンの機能と構成について述べる。現在のWWW検索の問題は、一つ一つのページを独立した文書として扱っていることであると考え、ユーザに提示すべき検索結果は個々のページの重要度ではなく、WWWサイトの構成を反映したものにすべきと考えた。サイテーション・エンジンは、WWWページ間のリンク構造を解析することによって、上記機能を実現する。サイテーション・エンジンはWWWクローラが出力するリンク情報をデータベースに格納し、これを解析する。解析機能は、リンク参照関係を用いた重要度(ページランク)計算機能と、WWWページ間の関連を用いた情報構造(インフォメーション・ユニット)解析機能からなる。さらに、ここで得られたページランクとインフォメーション・ユニット情報に基づいて、検索結果を並べなおすリンク構造ソート機能を備える。これにより、全文検索エンジンと連携して、高度なランキング機能を備えたWWW検索システムを構成できることを、プロトタイプシステムによって確認した。This report describes functions and configuration of a ranking system for the WWW search engine, which we call "Citation Engine". We have figured out the problem in the WWW search system that the system treats each WWW page as an independent document. Therefore, the ranking method in the system should consider a structure of pages in a site. According to this consideration, "Citation Engine" was designed to give better ranking by using link analysis techniques. "Citation Engine" stores and analyzes whole link structures that are fetched by the Web Crawler system. There are two main analysis functions: (1) the page rank analysis, and (2) the information unit analysis. It also provides the structural sorting function, which organizes search result with information of the page rank and the information unit. The WWW search engine which gives well-organized search results can be build by integrating "Citation Engine" and the full-text search engine. Efficiency of "Citation Engine" is verified on a prototype system.