著者
佐藤 吉秀 川島 晴美 佐々木 努 奥 雅博
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.105, no.203, pp.1-6, 2005-07-15
被引用文献数
2

逐次増加するニュース記事中に含まれる話題情報を効率的に把握するため, 新鮮で可能な限り多くの幅広い話題情報を最新話題語と呼ぶキーワードの形態で抽出する手法について報告する.ニュース記事中の話題を扱うにあたり, 世間の注目度が高い出来事を伝える記事数が増加する「話題の広がり」と, 広がり状態が続報記事発行によって時間的に持続する「話題の伸び」の2つの側面に注目する.提案手法では, 話題の整理のために記事をジャンル分類・クラスタリングした後, 記事のタイムスタンプから算出する記事新鮮度, および記事間類似度を用いて各クラスタを代表する最新話題語を抽出する.ニュース記事(2164記事)を対象にした評価実験の結果, 提案手法はクラスタ中の新鮮かつ代表的な話題を表し, さらに受容性も高い語句を抽出可能であることを確認した.
著者
関口 裕一郎 佐藤 吉秀 川島 晴美 奥田 英範
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.65, pp.207-210, 2007-07-03

ブログの急速な普及により、人々の生の体験や経験の情報がネットワーク上で多く発信されるようになり、それを用いたブログにおける話題の抽出等のマーケティング分析のニーズが増えてきている。しかしブログ記事は口語的な表現で記述されるため、分析時に商品名等の重要な固有表現が省略して表記されることによる分析精度の低下が問題となっている。本論文では、固有表現の正式表記の一部の文字を用いて作られる省略語を自動抽出することを目指し、ブログ文書での語句の使われ方を見ることにより省略語としての確からしさを算出手法を提案し、実際のブログ文書に適応した際の有効性について論じる。Many people write their experiments and impressions in their weblogs, and these articles have a much effect on buying behavior in web shopping. Thus, there are needs for mining topics in weblog articles for marketing purpose. In such mining processes, the proper noun is very important, though, many proper nouns are written in clipped word in weblogs. We describe a method to extract clipped words of the given proper noun using weblog articles that contains the original proper noun or candidates of clipped words. And evaluate the effectiveness using large weblog corpus.
著者
甲谷優 川島 晴美 藤村 考
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.88, pp.247-252, 2008-09-14
被引用文献数
1

教えて!goo,Yahoo Answers をはじめとする QA サイトの利用が普及してきている. Adamic らは, Yahoo Answers の各カテゴリを分析し異なるタイプのコミュニケーションがとられている 3 つのクラスタに分類した.まず,教えて!goo の各カテゴリをコミュニケーションタイプで 3 種類に分類し, Adamic らと同様の分析を行うことで Yahoo Answers の分析結果と比較する.次に,コミュニケーションは時間とともに変化するという性質に着目する. Adamic らの行った QA ネットワーク分析には時間の尺度が考慮されていないが,本研究では QA ネットワークが時間とともにどう成長していくのかを分析する.Recently, the question-answer (QA) site, such as Oshiete! goo or Yahoo Answers becomes more and more popular. Adamic et al. analyzed question-categories in Yahoo Answers, and they classified the categories into three clusters. The clusters are different from each other in communication types. First, we classify categories in Oshiete! goo into three groups according to the same way as Adamic et al. did, and compare Oshiete! goo with Yahoo Answers. Furthermore, we study the dynamic structure of social interaction pattern which Adamic et al. did not addressed.
著者
関口 裕一郎 佐藤 吉秀 川島 晴美 奥田 英範 奥 雅博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.117, pp.27-32, 2005-11-21
被引用文献数
2

blog記事は省略を多く含む口語的な記述がなされている為,文中の情報のみによる話題語句の判別は難しい.本論文では,発信者相互の興味の関連性を抽出し,ある語句を使用している発信者集合の持つ関連度の分布を見ることにより,高い関連度を持つ発信者間で使われる語句に高い話題度を算出する.blog記事の集合を用いて実験を行った結果,記事中の話題を表す語句に対して,高い話題度を算出することができた.In this paper, we describe the method to detect the topic words from blog documents. The 'topic words' is defined as a word that gains the attention of people sharing same interest. While blog documents are written by ordinal people, their texts are written in abbreviated informal expression. We use the information of blogger to adjust this characteristic of blog documents. The proposed method extracts the relevancies of each blogger; compares the deviation of these relevancies; and calculates the topic scores for each word of a blog document. The experiment shown that the method can extract appropriate topic words from blog documents.