- 著者
-
峠 泰成
大橋 一輝
山本 和英
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
- 巻号頁・発行日
- vol.2004, no.119, pp.43-50, 2004-11-26
- 被引用文献数
-
7
意見文であるか否かのタグつきデータをもとにタグなしデータを学習し、ある話題に対する単語データを作成することによって、Web掲示板から意見文を抽出する手法を提案する。タグ付きデータを学習した単語データ、評価表現や強調表現などの重みづけや主題の自動取得による重みづけによって、タグなしデータに対して意見文かどうかのスコアを算出する。そのうち上位5%と下位50%は、それぞれ意見文であること、意見文でないことが判断できると考えそれぞれを学習に用いた。学習によって作成した単語データを用いることによって、最初のタグ付きデータの単語データのみでの抽出結果に比べて、有効性を確認することができた。また、Web掲示板を少量ずつ繰り返し学習をすることで単語データを作成する手法の方が、まとめて学習を行う方法よりも良い結果を得られた。This paper describes a method of extracting opinion sentences from the Web board using iteration learning. We extracted an opinion sentence by creating the word data to a subject by learning from a Web board. These words are weighted for learning of word data by evaluation expressions, emphasis expressions, and themes which are automatically acquired. We performed scoring to create word data, and both highest 5% and lowest 50% of this data are learned again. Effectiveness was able to be confirmed by learning the word data compared with the extraction result of initial word data.