著者
高木 徹 木谷強
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.40, no.8, pp.74-84, 1999-11-15
参考文献数
26

大規模な文書データベースを対象とするフルテキスト検索では検索ヒット件数が多くなる傾向があるため ユーザの検索作業を支援する観点から 検索結果に対して重要度を付与する必要がある.本論文では 重要度算出方法として文書内における検索語の出現共起情報を用いる手法を提案する.単語の共起情報として、近接出現距離 共起検索語間の関連性 および共起検索語の重要度を用いて共起重要度を算出し 単語頻度情報から得られる文書の重要度と組み合わせて重要度を算出する.日本語の情報検索評価用テストコレクションを使用し 単語頻度情報のみによる重要度付与手法と 共起情報を考慮した提案手法を比較した.この結果 提案手法の平均適合率が約0.098向上(従来手法と比較した場合の向上率37%)することを確認した.Full text search from huge databases tend to give a great number of retrieved documents. To help user's retrieval work, it is necessary to rank them according to their relevance. This paper describes a relevance ranking method using information obtained from query word cooccurrences appearing in the retrieved documents. Distance between query words, their relative relationships in the database, and importance of query words are considered to decide the document relevance. Combined with traditional word frequency ranking, an overall relevance of retrieved documents is calculated. The traditional method alone and the combined method are compared using a test collection consisting of Japanese newspaper articles. Experimental results show that the proposed method improves retrieval recall about 0.098, or 37%compared to the traditional ranking method.

言及状況

Twitter (1 users, 1 posts, 0 favorites)

CiNii 論文 -  共起単語間の関連性を考慮した文書重要度付与 https://t.co/sH7EQ4Hi0a #CiNii

収集済み URL リスト