- 著者
-
上田 修功
斉藤 和巳
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
- 巻号頁・発行日
- vol.87, no.3, pp.872-883, 2004-03-01
- 被引用文献数
-
8
テキストは,一般に,多重トピックからなる.それゆえ,テキストからの自動トピック抽出は,伝統的なパターン認識で行われている排他的なクラス分類とは異なり,多重を許容するという意味でより困難な分類問題といえる.従来法では,多重トピックテキストの生成モデルが全く考慮されていないため,必然的な性能限界があると考えられる.本論文では多重トピックを有するテキストの新たな確率モデル,パラメトリック混合モデル(PMM1,PMM2)を提案し,次いで,PMMに基づいて,テキストから多重トピックを同時に抽出する手法を論じる.PMMは,単一トピックに対応する基底パラメータで可能なすべての多重トピッククラスを表現でき,PMM1ではパラメータ推定アルゴリズムの大域的最適性が保証され,更に,PMMのパラメータ推定及びトピック予測アルゴリズムは高速,という優れた特長を有する."Yahoo"ドメインの実際のwebページ分類実験により,提案手法の従来手法に対する顕著な優位性を示す.