著者
崔春花 北川 博之
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.72, pp.315-322, 2004-07-14

近年ネットワークを介して大量の文書の配信や交換が行われており、それらコンテンツの分析技術の重要性が増加している。重要なコンテンツ分析の1つとして、電子メールやニュース記事などの大規模時系列文書ストリーム中におけるトピック分析がある。本研究では、特に、特定のトピックの時間的な活性度の変化の分析を対象とする。対象とするトピックへ関連性が高い文書が高い頻度で到着するのは、そのトピックの活性度が高い状態であり、そうでない場合には活性度が低い状態と見なす。我々は、すでに各文書のトピックに対する関連性と到着頻度の両者を考慮した文書ストリームに対する活性度分析手法を提案した。時系列文書のトピック分析においては、しばしばニュース記事などが到着するたびに連続的に過去の一定期間のトピックの活性度をモニターしたいという場合が考えられる。本論文では、我々の提案手法をもとに、このような時系列文書に対する連続的なトピック分析の手法を提案する。また、実データを用いた実験によりその有効性を検証する。Dissemination and exchange of a large amount of documents have become popular according to the advance of network technology in recent years. Thus, importance of content analysis techniques is increasing. Topic analysis in a series of large-scale document streams such as E-mail and news articles is one of such. important research issues. Our research especially aims at the analysis of time varying activation levels of topics. When documents of high relevance with a specific topic arrive vary frequently, then the activation level of the topic is regarded high, otherwise the activation level is considered to be low. In the previous work, we proposed a systematic topic analysis method for document streams incorporating both document arrival rate and document relevance. Sometimes it is required to continuously analyze topics in the document streams. In this paper, we propose a new method to attain this based on our previous analysis method. Moreover, we evaluate the effectiveness of the proposed method by experiments using real data.