- 著者
-
川谷 隆彦
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.47, no.6, pp.1903-1917, 2006-06-15
- 参考文献数
- 14
- 被引用文献数
-
8
本論文では多文書間の共通性分析に基づく非階層的な文書クラスタリング法を提案する.文書クラスタリングにおいては,同じ話題を有する文書がグループ化されるので同じクラスタに属する文書にはなんらかの共通性が存在するはずである.また各話題には特有の単語や単語対が存在する.提案手法ではこのような点に着目し,文書・クラスタ間の類似度を,対象文書とその時点のクラスタに含まれる文書の共通情報との間で,単語の生起情報ばかりでなく共起情報も用いて定義する.また,話題特有の単語や単語対を用いて類似度を算出し,複数の話題に共通する情報の影響を排除する.提案手法ではクラスタは1 つずつ検出され,しかるべき方法で抽出された種文書と同じ話題の文書をマージさせつつ順次クラスタを成長させるという処理が繰り返される.TDT2 のコーパスから選択した21イベント6 788 文書,31 イベント7 306 文書,38 イベント7 546 文書のそれぞれに対し,検出クラスタ数21,30,36,クラスタリング精度95.17%,95.09%,94.82%を得た.また,上記の38 イベント7 546 文書に対するkNN(教師ありの分類法)の分類精度は97.02%であり,提案手法は教師なしでありながら,教師ありの分類手法に近い精度が得られることが確認された.This paper proposes a flat clustering method based on multi-document commonality analysis. In document clustering, documents with the same topic are grouped into a cluster so that documents in the cluster have certain commonalities. Furthermore, any topic has its own specific terms and term-pairs. Based on these aspects, the proposed method defines the document-cluster similarity between the given document and common information among the documents in the cluster. The similarity features that it uses not only term occurrence information but also term co-occurrence information. The similarity is obtained using specific terms and term-pairs of the cluster to avoid any impact from terms and term-pairs shared by two or more topics. The cluster seed grows by merging documents with high similarity into the current cluster. Through experiments using TDT2 as a corpus, it was confirmed that a proper number of clusters is obtained and that documents are assigned to clusters with high accuracy.