- 著者
-
青木 圭子
松本 一則
橋本 和夫
- 雑誌
- 全国大会講演論文集
- 巻号頁・発行日
- vol.55, pp.208-209, 1997-09-24
近年, 電子化文書の流通が増大し, 大量の文書情報の中から必要なものを検索する必要性が増してきており, 類似性を基準に大量の文書をクラスタリングする技術が重要となってきた。既に, 文書中の語の出現確率を用い, 文書集合をベイジアンクラスタリングする手法が提案されているが, 同手法の場合, 生成中の全クラスタ対においてクラスタどうしを一旦マージする必要があるため, 大量の文書集合を処理することが困難になる。そこで筆者らは, 計算量を削減することを目的とした大量文書向けのクラスタリング手法を提案・実装して, 提案手法と従来手法によるマージ回数の比較を行った。本稿では, 提案手法のマージ回数の推定方法について考察し, 実測値との比較結果を報告する。