- 著者
-
相澤 彰子
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.41, no.12, pp.3332-3343, 2000-12-15
本論文では語と文書の共起関係に注目し,与えられた文書集合中での語の特徴度の量的表現やその適用について,情報量的な観点から考察を加える.今日,情報検索の分野において広く用いられている ?tfidf (term frequency -inverse document frequency)は,語頻度と対数文書頻度の逆数を乗じた尺度である.ここで $tf$ を語の総出現頻度で正規化した値は,語の出現確率の推定値に対応しており,さらに $idf$ は一種の情報量として解釈できることから,?tfidf ? は確率と情報量をかけあわせた尺度であるといえる.本論文では,このような ?tfidf ? の定義を拡張して,語の特徴度を,「語の出現確率」と「語の持つ情報量」の積の形で一般的に定義し,実際のテキストデータに適用した結果を示す.