著者
田中 俊行 グェン ミンティ 中川 博之 田原 康之 大須賀 昭彦
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J94-D, no.11, pp.1751-1761, 2011-11-01

インターネットの普及に伴い,Web上には商品やサービス(対象物)に対する多くの評判情報が蓄積されている.しかし,誰でも発信できるが故に,情報は膨大となり,それら全てに目を通すことは利用者にとって多大な負担となる.そのような背景から,レビューから意見を自動的に抽出する研究が盛んに行われており,意見を<対象物,評価視点(属性),評価値>の三つ組と捉え抽出する研究も行われている.しかしながら多くの研究は,評価視点や評価値の抽出に辞書を用いており,ジャンルごとに必要となる辞書の構築のためのコストは小さいとはいえない.また,単に辞書を用いてマッチングを行っただけでは,精度が上がらないのが現状である.そこで本論文では,教師あり学習を用いて,レビューサイトから意見を抽出する手法を提案する.提案手法は,従来の手法のように大規模な辞書をあらかじめ用意する必要がないため,コストを大幅に抑えることが可能である.実験の結果,辞書をあらかじめ用意しない既存手法と比較して,最大で適合率は約26%,再現率は約47%向上した.また,既存研究では個別の辞書を必要とするような他ジャンルに対して本手法を適用した結果,ほぼ変わらない精度で抽出することができ,他ジャンルへの適用の可能性を示すことができた.
著者
グェン ミンティ 川村 隆浩 中川 博之 田原 康之 大須賀 昭彦
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.26, no.1, pp.166-178, 2011 (Released:2011-01-06)
参考文献数
31
被引用文献数
2

In our definition, human activity can be expressed by five basic attributes: actor, action, object, time and location. The goal of this paper is describe a method to automatically extract all of the basic attributes and the transition between activities derived from sentences in Japanese web pages. However, previous work had some limitations, such as high setup costs, inability to extract all attributes, limitation on the types of sentences that can be handled, and insufficient consideration interdependency among attributes. To resolve these problems, this paper proposes a novel approach that uses conditional random fields and self-supervised learning. Given a small corpus sample as input, it automatically makes its own training data and a feature model. Based on the feature model, it automatically extracts all of the attributes and the transition between the activities in each sentence retrieved from the Web corpus. This approach treats activity extraction as a sequence labeling problem, and has advantages such as domain-independence, scalability, and does not require any human input. Since it is unnecessary to fix the number of elements in a tuple, this approach can extract all of the basic attributes and the transition between activities by making only a single pass. Additionally, by converting to simpler sentences, the approach can deal with complex sentences retrieved from the Web. In an experiment, this approach achieves high precision (activity: 88.9%, attributes: over 90%, transition: 87.5%).