著者
湯浅 夏樹 上田 徹 外川 文雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.36, no.8, pp.1819-1827, 1995-08-15
被引用文献数
25

本稿では、特徴ベクトルを用いて自動的に文書分類を行う二つの手法を提案する。一つは、大量の文書データを用いて、同一記事中の単語間共起関係から分野の特徴を表す単語出現頻度分布の近似値を求め、この値を要素とする特徴ベクトルを用いて文書を分類する手法である。もう一つは、EDRの辞書をシソーラスとして用い、単語間の類似度を求め、この単語類似度を要素とする特徴ベクトルを用いて文書を分類する手法である。これらの手法を人手による分類と比較したところ、単語間共起を用いた手法では83.5%の記事が正しく分類され、易しい記事だけに限定すれば98.0%の記事が正しく分類されることが確認できた。また、シソーラスを用いた手法では、63.75%の記事が正しく分類されることが確認できた。