著者
飯田 龍 小林 のぞみ 乾 健太郎 松本 裕治 立石 健二 福島 俊一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.1, pp.21-28, 2005-01-11
被引用文献数
12

本稿では,文章に記述されている意見を抽出するタスクについて述べる.我々は,意見を<対象,属性,評価値>の3つ組として定義し,文章からその3つ組を抽出する手法を提案する.具体的には,意見抽出の問題を,(a)辞書に存在する属性候補集合と評価値候補集合から評価値候補と対となる属性を同定する問題と,(b)同定した対が意見性を持つか否かを判定する問題の2つの問題に分解し,それぞれ機械学習に基づく手法を用いて解析することにより,属性-評価値対を同定する.提案手法を用いて評価実験を行った結果を報告するとともに,今後の展望についても議論する.This paper addresses the task of extracting opinions described in a given document collection. Assuming that an opinion can be represented as a tuple < Subject, Attribute, Value>, we propose a computational method to extract such tuples from texts. In this method, the major task is decomposed into (a) the process of extracting Attribute-Value pairs from given texts and (b) the process of judging whether each extracted pair is expressed as an opinion of the author, to both of which we apply machine-learning techniques. We also report on the present results of our experiments discussing future directions.
著者
立石 健二 石黒 義英 福島 俊一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.69, pp.75-82, 2001-07-16
被引用文献数
39

本稿では,インターネットに分散して存在する人の意見を一括して検索する手法を提案し,試作したシステム概要と,その検索精度を報告する.インターネットはすべての人が情報発信できる場であり,さまざまな人の意見が存在する.しかし,従来これらの意見を効率的に入手する方法は存在しなかった.提案手法では,ユーザが入力した商品名とあらかじめ辞書として用意した評価表現を近接演算する方法を用いて,インターネットのWebページから意見を抽出する.また,抽出した意見の意見らしさ(適性値)を構文的な特徴を利用して判定する.試作システムの精度を評価したところ,従来のキーワードと比較して検索結果を15%程度に絞りこめること,検索結果の上位17.1%で86.6%という高い適合率を得られることがわかった.This paper proposes a method for retrieving people's opinions from www pages, and describes its implementation as well as the evaluation results of this system. Many people are exchanging or expressing their opinions with the Internet. However no traditional system can efficiently retrieve people's opinions from the Internet. With the proposed method, our system can extract people's opinions by utiltzing word distance calculation and opinion-likeness evaluation. The averge number of the search result of this system is 85% of smaller than the result of traditional keyword-based search. The precision of this system is 86.6% within the top 17.1% of the search result.
著者
福島 俊一 山田 洋志
雑誌
全国大会講演論文集
巻号頁・発行日
vol.49, pp.259-260, 1994-09-20
被引用文献数
1

近年、ペンを用いて文字の入力やコンピュータの操作を行なうペンコンピューティングヘの期待が、急速に高まってきている。キーボードと比べたペンコンピューティングの利点は、(a)小型化が可能であることや、(b)初心者にもなじみやすいことである。携帯端末では(a)の利点が活かされ、ペンワープロでは(b)の利点が活かされている。しかし、ペンによる手書き操作で日本語入力を行なうと、現状では、誤認識の発生や漢字の画数の多さなどからキーボードよりも入力効率が大きく劣る。この欠点は、ペンワープロのような文書作成の用途で特に問題になる。ペンベース文書作成より快適なものにするには、ペンによる日本語入力の効率改善が必要である。この改善のために、従来、オンライン文字認識の性能向上だけでなく、文字認識後処理や交ぜ書き漢字変換なども取り入れられてきた。さらに筆者らは、効率をいっそう高める新手法として予測ペン入力インタフェースを提案している。本稿では、その予測実現方式と手書き操作の削減効果について報告する。
著者
竹元 義美 福島 俊一 山田 洋志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.42, no.6, pp.1580-1591, 2001-06-15
被引用文献数
5

日本語テキストからの情報抽出の基盤技術として,組織名・人名・地名・固有物名・日付・時刻・金額・割合表現を高精度で分類抽出する,固有表現抽出システムを開発した.本システムは,形態素解析を利用して入力文を単語分割し,固有表現辞書とパターンマッチルールとを適用することでテキスト中の固有表現を判定するというベーシックなアプローチをとっている.辞書の充実とルールの整備を基本方針として抽出精度の改善を進め,辞書の増強と辞書情報の詳細化,人手によるルール作成を行った.また,辞書を充実させても生じる課題として,複合語の一部となる固有名詞判定と未知語・多義語の固有名詞判定とに工夫を加えた.前者は,複合語を分割して複合語中の固有名詞を判定することにより,固有名詞の抽出洩れを救済する.後者は,ルールで判定した固有名詞で信頼度の高いものをもとに,未知語・多義語となった固有名詞の省略表現を判定する.IREX-NEコーパス(トピックを限定しない一般的な内容の記事)を用いた精度評価を実施し,F値で83.86という精度を得た.また,導入したルール・処理の効果も分析し,有効性を確認した.We have developed a Named Entity extraction system from Japanese text.``Named Entities'', i.e.,proper names and temporal/numerical expressions are considered as the essential elements for extracting information.The system employs a conventional method that it divides input Japanese text into words and parts of speech by morphological analysis and extracts each Named Entity by referencing dictionaries and applying pattern-matching rules.In order to improve the system's accuracy,we aim to build a large-scale and high-quality dictionary and rules.Both the dictionary and rules have been produced manually,because we believe that a hand-made dictionary or rules have better quality than those that are made automatically.We also focused our attention on two points for cases that cannot be covered by the dictionary.One is to extract proper names from compound words,and the other is to designate unknown or vague words as proper names.For the first point, our system divides compound words and determines proper names within them.Thus, omissions of proper names in compound words can be eliminated.For the second point, our system recognizes abbreviations of proper names,which tend to be unknown or vague, using reliable proper names.For the IREX-NE corpus, our system has accomplished 83.86 as F-measure score.