- 著者
-
竹元 義美
福島 俊一
山田 洋志
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.42, no.6, pp.1580-1591, 2001-06-15
- 被引用文献数
-
5
日本語テキストからの情報抽出の基盤技術として,組織名・人名・地名・固有物名・日付・時刻・金額・割合表現を高精度で分類抽出する,固有表現抽出システムを開発した.本システムは,形態素解析を利用して入力文を単語分割し,固有表現辞書とパターンマッチルールとを適用することでテキスト中の固有表現を判定するというベーシックなアプローチをとっている.辞書の充実とルールの整備を基本方針として抽出精度の改善を進め,辞書の増強と辞書情報の詳細化,人手によるルール作成を行った.また,辞書を充実させても生じる課題として,複合語の一部となる固有名詞判定と未知語・多義語の固有名詞判定とに工夫を加えた.前者は,複合語を分割して複合語中の固有名詞を判定することにより,固有名詞の抽出洩れを救済する.後者は,ルールで判定した固有名詞で信頼度の高いものをもとに,未知語・多義語となった固有名詞の省略表現を判定する.IREX-NEコーパス(トピックを限定しない一般的な内容の記事)を用いた精度評価を実施し,F値で83.86という精度を得た.また,導入したルール・処理の効果も分析し,有効性を確認した.We have developed a Named Entity extraction system from Japanese text.``Named Entities'', i.e.,proper names and temporal/numerical expressions are considered as the essential elements for extracting information.The system employs a conventional method that it divides input Japanese text into words and parts of speech by morphological analysis and extracts each Named Entity by referencing dictionaries and applying pattern-matching rules.In order to improve the system's accuracy,we aim to build a large-scale and high-quality dictionary and rules.Both the dictionary and rules have been produced manually,because we believe that a hand-made dictionary or rules have better quality than those that are made automatically.We also focused our attention on two points for cases that cannot be covered by the dictionary.One is to extract proper names from compound words,and the other is to designate unknown or vague words as proper names.For the first point, our system divides compound words and determines proper names within them.Thus, omissions of proper names in compound words can be eliminated.For the second point, our system recognizes abbreviations of proper names,which tend to be unknown or vague, using reliable proper names.For the IREX-NE corpus, our system has accomplished 83.86 as F-measure score.