著者
水田 昌孝 熊野 雅仁 小野 景子 木村 昌弘
出版者
情報処理学会
雑誌
研究報告数理モデル化と問題解決(MPS) (ISSN:18840930)
巻号頁・発行日
vol.2010, no.10, pp.1-6, 2010-12-09

我々は以前に,文書ストリームからバースト潜在トピック抽出する t-LDA 法を提案した.t-LDA 法は,潜在トピックを抽出するために文書生成確率モデル LDA (Latent Dirichlet Allocation) を用い,バーストトピックを同定するために時間フィルタを導入している.そして,LDA と時間フィルタに基づいて,時間情報を持つ 2 つの文書間の類似度を構築し,階層的クラスタリング法を適用することで文書ストリームからバースト潜在トピックを抽出している.本稿では,人工データを用いた実験により t-LDA 法の定量的な有効性を検証し,オンラインニュースデータを用いた実験により t-LDA 法の有効性を実証する.We previously proposed the t-LDA method that extracts bursty latent topics from a documet stream. The method utilizes Latent Dirichlet Allocation (LDA), which is a probabilistic generative model of documents, for extracting latent topics, and introduce a time-filter for identifying bursty topics. It constructs a measure of similarity between two documents with time-stamps on the basis of LDA and the time-filter, and extract bursty latent topics from a document stream by applying a hierarchical agglomerative clustering method. In this paper, we quantitatively verify its effectiveness by using synthetic data, and demonstrate its effectiveness by using real online news data.
著者
水田 昌孝 熊野 雅仁 小野 景子 木村 昌弘
出版者
情報処理学会
雑誌
研究報告数理モデル化と問題解決(MPS) (ISSN:18840930)
巻号頁・発行日
vol.2010, no.10, pp.1-6, 2010-12-09

我々は以前に,文書ストリームからバースト潜在トピック抽出する t-LDA 法を提案した.t-LDA 法は,潜在トピックを抽出するために文書生成確率モデル LDA (Latent Dirichlet Allocation) を用い,バーストトピックを同定するために時間フィルタを導入している.そして,LDA と時間フィルタに基づいて,時間情報を持つ 2 つの文書間の類似度を構築し,階層的クラスタリング法を適用することで文書ストリームからバースト潜在トピックを抽出している.本稿では,人工データを用いた実験により t-LDA 法の定量的な有効性を検証し,オンラインニュースデータを用いた実験により t-LDA 法の有効性を実証する.We previously proposed the t-LDA method that extracts bursty latent topics from a documet stream. The method utilizes Latent Dirichlet Allocation (LDA), which is a probabilistic generative model of documents, for extracting latent topics, and introduce a time-filter for identifying bursty topics. It constructs a measure of similarity between two documents with time-stamps on the basis of LDA and the time-filter, and extract bursty latent topics from a document stream by applying a hierarchical agglomerative clustering method. In this paper, we quantitatively verify its effectiveness by using synthetic data, and demonstrate its effectiveness by using real online news data.