著者
中崎 寛之 川場 真理子 横本 大輔 宇津呂 武仁 福原 知宏
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.5, pp.613-622, 2010 (Released:2010-08-06)
参考文献数
12
被引用文献数
1

The overall goal of this paper is to cross-lingually analyze multilingual blogs collected with a topic keyword. The framework of collecting multilingual blogs with a topic keyword is designed as the blog feed retrieval procedure. In this paper, we take an approach of collecting blog feeds rather than blog posts, mainly because we regard the former as a larger information unit in the blogosphere and prefer it as the information source for cross-lingual blog analysis. In the blog feed retrieval procedure, we also regard Wikipedia as a large scale ontological knowledge base for conceptually indexing the blogosphere. The underlying motivation of employing Wikipedia is in linking a knowledge base of well known facts and relatively neutral opinions with rather raw, user generated media like blogs, which include less well known facts and much more radical opinions. In our framework, first, in order to collect candidates of blog feeds for a given query, we use existing Web search engine APIs, which return a ranked list of blog posts, given a topic keyword. Next, we re-rank the list of blog feeds according to the number of hits of the topic keyword as well as closely related terms extracted from the Wikipedia entry in each blog feed. We compare the proposed blog feed retrieval method to existing Web search engine APIs and achieve significant improvement. We then apply the proposed blog distillation framework to the task of cross-lingually analyzing multilingual blogs collected with a topic keyword. Here, we cross-lingually and cross-culturally compare less well known facts and opinions that are closely related to a given topic. Results of cross-lingual blog analysis support the effectiveness of the proposed framework.
著者
高橋 佑介 横本 大輔 宇津呂 武仁 吉岡 真治
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2011, no.6, pp.1-6, 2011-11-14
被引用文献数
1

本論文では,時系列ニュースを対象として,情報集約を行うための二種類の方式として,バースト解析およびトピックモデルの2つの手法の考え方を組み合わせることにより,トピックのバーストを検出する方式を提案する.時系列ニュースにおけるバーストとは,世の中における特異な出来事に対応して,ある時期からその出来事に関連するニュース記事が急激に増加する現象を指す.バーストを検出するための代表的な手法として,Kleinbergのバースト解析が挙げられる.この手法においては,一般的に,バーストの検出はキーワード単位で行われる.一方,文書集合におけるトピックの分布を推定するものとしてLDA (latent Dirichlet allocation) やDTM (dynamic topic model) に代表されるトピックモデルがある.トピックモデルを適用することにより,ニュース記事集合全体の情報を,いくつかのトピックに集約することができる.以上の既存技術をふまえて,本論文では,DTMを用いて推定したトピックに対してバースト度を付与することで,トピック単位のバーストが検出可能であることを示す.Among various types of recent information explosion, that in news stream is also a kind of serious problems. This paper studies issues regarding two types of modeling of information flow in news stream, namely, burst analysis and topic modeling. First, when one wants to detect a kind of topics that are paid much more attention than usual, it is usually necessary for him/her to carefully watch every article in news stream at every moment. In such a situation, it is well known in the field of time series analysis that Kleinberg's modeling of bursts is quite effective in detecting burst of keywords. Second, topic models such as LDA (latent Dirichlet allocation) and DTM (dynamic topic model) are also quite effective in estimating distribution of topics over a document collection such as articles in news stream. This paper focuses on the fact that Kleinberg's modeling of bursts is usually applied only to bursts of keywords but not to those of topics. Then, based on Kleinberg's modeling of bursts of keywords, we propose how to measure bursts of topics estimated by a topic model such as LDA and DTM.
著者
阿部 佑亮 中崎 寛之 横本 大輔 宇津呂 武仁 河田 容英 福原 知宏
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.24, 2010

本研究では,ブログ空間の情報や知識を類型化するための方式の一つとして, 「ブロガーの立場」に着目する.そして,事例研究として,「詐欺」,「イン ターネット犯罪」の分野を対象として,日英ブログサイトの収集を行い,ブロ グでの記述内容を被害者・ニュース記事引用・防止対策に類型化した結果を報 告する.さらに,それらの類型のうち,特に被害者によるブログ記事の自動収 集手法を提案する.