- 著者
-
石川 雅弘
- 出版者
- 情報処理学会
- 雑誌
- 情報処理学会研究報告 (ISSN:21862583)
- 巻号頁・発行日
- vol.2010, no.6, pp.1-6, 2011-04
ウェブ上にはブログをはじめとして一般ユーザにより生産された大量のテキストデータが蓄積されており,その量は今後も継続的に増加すると考えられる.我々はタイムスタンプ付きテキスト集合のクラスター構造とその経時変化を可視化するための手法を提案してきたが,そこでは文書ベクトルの次元削減と潜在意味処理を行なうために全データを一括して処理する必要があった.そのため,ブログなど大量のテキストが生産される続ける漸増的環境に適用するには問題があった.本稿では,ブログのような漸増的動的環境下でも,潜在意味処理を伴なったクラスタリングと可視化を効率良く行うための、文書ベクトル生成手法を提案し,例として収集したブログ記事集合への適用結果を示す.Nowadays, huge amount of user generated texts is produced and accumulated on the web. They will be continuously increased in the future too. We have proposed a method for visualizing cluster structures of time-stamped texts and their changes over time. However, in the method, the whole dataset had to be processed at a time for dimension reduction of document vectors and incorporating latent semantics of words. Thus, the method have some problem in dynamic incremental environments, such as blogs, to apply. In this paper, a new method for document vector generation which can enable efficient text clustering and visualization in dynamic environments is proposed. As an example, the proposed method is applied to blog articles to demonstrate its effectiveness.