著者
川谷 隆彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.6, pp.1903-1917, 2006-06-15
参考文献数
14
被引用文献数
8

本論文では多文書間の共通性分析に基づく非階層的な文書クラスタリング法を提案する.文書クラスタリングにおいては,同じ話題を有する文書がグループ化されるので同じクラスタに属する文書にはなんらかの共通性が存在するはずである.また各話題には特有の単語や単語対が存在する.提案手法ではこのような点に着目し,文書・クラスタ間の類似度を,対象文書とその時点のクラスタに含まれる文書の共通情報との間で,単語の生起情報ばかりでなく共起情報も用いて定義する.また,話題特有の単語や単語対を用いて類似度を算出し,複数の話題に共通する情報の影響を排除する.提案手法ではクラスタは1 つずつ検出され,しかるべき方法で抽出された種文書と同じ話題の文書をマージさせつつ順次クラスタを成長させるという処理が繰り返される.TDT2 のコーパスから選択した21イベント6 788 文書,31 イベント7 306 文書,38 イベント7 546 文書のそれぞれに対し,検出クラスタ数21,30,36,クラスタリング精度95.17%,95.09%,94.82%を得た.また,上記の38 イベント7 546 文書に対するkNN(教師ありの分類法)の分類精度は97.02%であり,提案手法は教師なしでありながら,教師ありの分類手法に近い精度が得られることが確認された.This paper proposes a flat clustering method based on multi-document commonality analysis. In document clustering, documents with the same topic are grouped into a cluster so that documents in the cluster have certain commonalities. Furthermore, any topic has its own specific terms and term-pairs. Based on these aspects, the proposed method defines the document-cluster similarity between the given document and common information among the documents in the cluster. The similarity features that it uses not only term occurrence information but also term co-occurrence information. The similarity is obtained using specific terms and term-pairs of the cluster to avoid any impact from terms and term-pairs shared by two or more topics. The cluster seed grows by merging documents with high similarity into the current cluster. Through experiments using TDT2 as a corpus, it was confirmed that a proper number of clusters is obtained and that documents are assigned to clusters with high accuracy.
著者
川谷 隆彦 清水 裕之 マッキーチャン マーク
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.80, no.7, pp.1742-1751, 1997-07-25
被引用文献数
10

本論文は筆者の一人が先に提案したLDA法の改良と手書き数字認識への応用について述べている. LDA法ではフィッシャーの判別分析で求められる判別関数を原距離関数に重畳することにより原距離関数のパラメータの学習を行う. 判別分析においては, 判別すべき二つのパターン集合を1次元の軸z上に射影する. 今回新たな問題点として, LDA法では判別関数に1次の項のみならず2次の項まで用いるためにz軸上の分布は対称にならないこと, また, そのために最適な判別関数が求められず認識精度の向上に限界があることが判明した. 本論文では, 非対称性の影響を軽減させる方法を提案し, NISTのデータベースに含まれる手書き数字を用いた認識実験によりその効果を確認している. また, 誤読パターンの傾向の評価, および人間の読取り結果との比較を通じ, OCRの読取り能力は人間のそれにかなり接近してきていることを示している.