- 著者
-
田中 久美子
岩崎 英哉
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告情報学基礎(FI)
- 巻号頁・発行日
- vol.1996, no.88, pp.49-56, 1996-09-12
コーパスから得られた共起情報は,共起関係を枝,語をノードとするグラフと見なすことができる.同じ語が複数の意味を持つことがあるという曖昧性によって,この共起グラフは全体でひとつの大きなグラフを形成している.本稿では,曖昧性を「共起関係の推移律」という観点から捉え,共起グラフから同じ意味・話題を成す部分グラフを推移律が成立するように抽出して全体をクラスタ分けするための手法を提案する.クラスタ分けされたグラフの性質などについても考察する.さらに,実際に20Mのコーパスから作成した共起グラフに対して本手法を適用した結果,および,それを用いた主成分分析による記事の分類を行なった結果も合わせて報告する.Co-occurrence information, obtained from a corpus, is a graph, regarding words as nodes and co-occurrences as branches. Subgraphs of different themes stay connected because of ambiguous words. This paper assumes the ambiguity as the non-transitivity in co-occurrence relationship and tries to cluster a graph into subgraphs in which transitivity holds. Several properties of such subgraphs are also discussed. The clustering method is applied to a cooccurrence graph obtained from 20M Japanese newspaper articles and its results are analyzed. They are also used to classify the articles.