- 著者
-
高木 徹
木谷強
関根 道隆
出口 信吾
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告情報学基礎(FI)
- 巻号頁・発行日
- vol.1997, no.86, pp.89-94, 1997-09-11
- 参考文献数
- 8
- 被引用文献数
-
3
ユーザの検索作業を支援する観点から、全文検索の検索結果に対して重要度 (スコア) を付与する研究が実施されている。一方、シソーラスは重要な概念を表わす語で構成されており、一般的に文書の主題を表わす語が多く含まれている。そこで本論文では、検索語がシソーラスに掲載されている語である場合、その語が出現する文書の重要度を変更する方法を提案する。日本語新聞記事のテストコレクションBMIR?J1と日経シソーラスを使用し、シソーラス掲載情報を利用する場合と利用しない場合の検索精度を比較した。検索文字列とシソーラス掲載語の文字列の一致度合、および検索文字列が含まれるシソーラス掲載語のカテゴリ頻度をパラメータとして文書の重要度を変化させた結果、再現率が5%向上することを確認した。To facilitate users' retrieval work, it is necessary to rank documents according to their relevance. A thesaurus is composed of words which can be main subjects of the documents. This paper describes a relevance ranking method that utilizes importance of query words appearing in the thesaurus. The traditional frequency-based method alone and combined method are compared using the Nikkei thesaurus and a test collection of Japanese newspaper articles called BMIR-J1. Experimental results show that the proposed method, using the thesaurus-term frequency and the degree of string matching between the query and thesaurus word, improves retrieval recall by 5%.