著者
田中 俊行 グェン ミンティ 中川 博之 田原 康之 大須賀 昭彦
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J94-D, no.11, pp.1751-1761, 2011-11-01

インターネットの普及に伴い,Web上には商品やサービス(対象物)に対する多くの評判情報が蓄積されている.しかし,誰でも発信できるが故に,情報は膨大となり,それら全てに目を通すことは利用者にとって多大な負担となる.そのような背景から,レビューから意見を自動的に抽出する研究が盛んに行われており,意見を<対象物,評価視点(属性),評価値>の三つ組と捉え抽出する研究も行われている.しかしながら多くの研究は,評価視点や評価値の抽出に辞書を用いており,ジャンルごとに必要となる辞書の構築のためのコストは小さいとはいえない.また,単に辞書を用いてマッチングを行っただけでは,精度が上がらないのが現状である.そこで本論文では,教師あり学習を用いて,レビューサイトから意見を抽出する手法を提案する.提案手法は,従来の手法のように大規模な辞書をあらかじめ用意する必要がないため,コストを大幅に抑えることが可能である.実験の結果,辞書をあらかじめ用意しない既存手法と比較して,最大で適合率は約26%,再現率は約47%向上した.また,既存研究では個別の辞書を必要とするような他ジャンルに対して本手法を適用した結果,ほぼ変わらない精度で抽出することができ,他ジャンルへの適用の可能性を示すことができた.
著者
佐藤 大輔 中川 博之 田原 康之 大須賀 昭彦
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J94-D, no.11, pp.1773-1782, 2011-11-01

本論文では,閲覧中のWeb上のニュース記事に対する意見を個人のブログから収集し,その本文中の主張部分を抽出して提示するシステムの提案を行う.現在ニュースサイトにコメント欄が用意されているところは少なく,検索エンジンを用いても個人の意見のみを収集するのは容易ではない.そこで個人の意見を述べやすい場であるブログに着目してニュース記事に関連した意見を集め,主張を抽出する.本研究では主張とは意見の中で筆者が強く述べている主観的な部分を指す.開発中の主張提示システムの中で,本論文では主張抽出に焦点を当てる.主張抽出には人手により主張であるとされた文章から形態素解析を利用して特徴的な抽出ルールを設定した.本システムによりユーザはニュースサイトを閲覧すると同時に意見の多角的な見方が可能になり,より深い洞察が得られるようになる.評価実験において人手による正解との適合率を求めたところ70.0%となった.
著者
グェン ミンティ 川村 隆浩 中川 博之 田原 康之 大須賀 昭彦
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.26, no.1, pp.166-178, 2011 (Released:2011-01-06)
参考文献数
31
被引用文献数
2

In our definition, human activity can be expressed by five basic attributes: actor, action, object, time and location. The goal of this paper is describe a method to automatically extract all of the basic attributes and the transition between activities derived from sentences in Japanese web pages. However, previous work had some limitations, such as high setup costs, inability to extract all attributes, limitation on the types of sentences that can be handled, and insufficient consideration interdependency among attributes. To resolve these problems, this paper proposes a novel approach that uses conditional random fields and self-supervised learning. Given a small corpus sample as input, it automatically makes its own training data and a feature model. Based on the feature model, it automatically extracts all of the attributes and the transition between the activities in each sentence retrieved from the Web corpus. This approach treats activity extraction as a sequence labeling problem, and has advantages such as domain-independence, scalability, and does not require any human input. Since it is unnecessary to fix the number of elements in a tuple, this approach can extract all of the basic attributes and the transition between activities by making only a single pass. Additionally, by converting to simpler sentences, the approach can deal with complex sentences retrieved from the Web. In an experiment, this approach achieves high precision (activity: 88.9%, attributes: over 90%, transition: 87.5%).