著者
相澤 彰子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.41, no.12, pp.3332-3343, 2000-12-15
参考文献数
40
被引用文献数
10

本論文では語と文書の共起関係に注目し,与えられた文書集合中での語の特徴度の量的表現やその適用について,情報量的な観点から考察を加える.今日,情報検索の分野において広く用いられている ?tfidf (term frequency -inverse document frequency)は,語頻度と対数文書頻度の逆数を乗じた尺度である.ここで $tf$ を語の総出現頻度で正規化した値は,語の出現確率の推定値に対応しており,さらに $idf$ は一種の情報量として解釈できることから,?tfidf ? は確率と情報量をかけあわせた尺度であるといえる.本論文では,このような ?tfidf ? の定義を拡張して,語の特徴度を,「語の出現確率」と「語の持つ情報量」の積の形で一般的に定義し,実際のテキストデータに適用した結果を示す.This paper presents a mathematical definition of the {\it featurequantity}, a measure of specificity of terms in documents which isbased on an information theoretic view of retrieval events. Theproposed feature quantity is expressed as a product of the frequencyof terms and their amouts of information, and has a goodcorrespondence with \tfidf-like measures commonly used in today'sinformation retrieval systems. In the paper, the mathemtaicaldefinition of the feature quantity is shown together with someillustrative examples.

言及状況

はてなブックマーク (1 users, 1 posts)

収集済み URL リスト