- 著者
-
吉田 光男
乾 孝司
山本 幹雄
- 出版者
- 情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:03875806)
- 巻号頁・発行日
- vol.54, no.12, pp.2502-2512, 2013-12
ブログページには,Web検索エンジンなど機械的にページを処理するシステムにおいてノイズになる部分が含まれる.そのため,ブログのコンテンツを利用するためには,コンテンツの抽出処理が必要になる.さらに,ブログのコンテンツは,ポストと呼ばれるブログの書き手によるコンテンツと,コメントと呼ばれるブログの読み手によるコンテンツに二分できる.ポストとコメントの存在はブログの特性の1つであり,ブログの特性を活用するシステムや研究では,ポストおよびコメントを別々に抽出できていることが望ましい.本論文では,ブログページ集合を用いることにより,ポストとコメントを自動的に分離抽出する手法を提案する.複数のブログ記事ページを含むあるブログサイトにおいて,ポストはすべての記事ページに出現するが,コメントはいずれかの記事ページにしか出現しないという点に着目し考案した.また,本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い,日本語ブログサイトに対しての有効性を検証し,コンテンツをポストおよびコメントに分離できることを確認した.Content extraction is necessary to use blogs as data for Web search engines, because blog pages are excessively added noisy parts such as menus, advertisements and copyright notices. Most of the blog contents are texts, and those can be divided in two parts, posts and comments. A post is a content written by the blog owner and a comment is piece of text written by readers in response to the owner's post. In this paper, we propose a simple method to extract the posts and comments separately from series of blog pages, whose posts are all written by the same owner. The proposed method is based on the assumption that although posts appear in all blog pages, comments do not. We describe experimental results to show good performance of the proposed method using real Web pages of the blog sites in Japanese.