著者
新谷 研 角田 達彦 大石 巧 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.4, pp.855-862, 1997-04-15
被引用文献数
9

新聞の関連記事を検索する手法を提案し,実験により評価した結果について報告する.本研究で提案する手法は,名詞を中心にキーワードになりそうな単語を表層的に判断して重みをつけ,その重みを点数化し,記事間の関連度を記事間で共起した単語の点数の総和により評価するというものである.重みをつける尺度は,(a)記事中において出現回数の多い単語の重みを高くし,出現回数の少ない単語の重みを低くすること,(b)各記事の初めの方に出現する単語の重みを高くし,終わりの方に出現する単語の重みを低くすること,(c)過去1年分の新聞記事においてあまり出現しない単語の重みを高くし,よく出現する単語の重みを低くすること,の3点である.実験を行った結果,元記事以後2週間の範囲に存在する関連記事を適合率96%,再現率66%で抽出できた.We propose a new method of retrieving relevant newspaper articles.Our method is based on word weighting,and it is based on three important points:(a) A word has a high weight if it often occurs in the article.(b) A word has a high weight if it is in former sentences of the article.(c) A word has a high weight if it rarely occurs in newspaper articles for last one year.This method retrieves relevant articles within two weeks since the original article was printed.As a result,its precision is 96%,and its recall is 66%.