著者
江里口 善生 木谷強
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.1, pp.44-54, 1997-01-15
被引用文献数
9

テキストから興味ある情報を抜き出す情報抽出の手法として 文字列の並びを認識するパターンマッチング処理が注目されている.パターンマッチング処理は構文解析に比べ一般的に処理時間が短く 全文の解析を必ずしも必要としない情報抽出に適している.これまでにARPAによる情報抽出コンテストMUCなどで パターンマッチング処理を利用した情報抽出システムが開発されてきた。しかし パターンマッチングの効率は 大量文書を処理する場合は重要であるにもかかわらず ほとんど検討されていなかった.本論文では スキップ機能を有する富田一般化LRパーザをパターンマッチングエンジンとして使用し 情報抽出のための効率的なパターンマッチング手法を検討する.まず パーザヘの入力単位を形態素と文節で比較し 企業の業務提携に関する新聞記事を使用した実験から 処理精度と速度ともに文節単位の入力が優れていることを示す.次に マッチングする対象とならない語をパーザヘ入力する前に取り除く不要語フィルタリング処理を提案する.実験により 文節単位の入力で不要語フィルタリングを使用する場合 形態素単位の入力で不要語フィルタリングを使用しない場合に比べ 処理速度が約23倍も向上することを示す.提案する手法により 冨田一般化LRパーザを用いた情報抽出のための効率的なパターンマッチング処理が実現できることを明らかにする.Pattern matching, which recognizes character sequences in a text, has been used for extracting information of user's interest. Pattern matching is suitable for information extraction, since it is generally fast by its nature and the extraction does not necessarily require full text analysis. Several information extraction systems such as ARPA-sponsored MUC systems were based on pattern matching. Efficiency in pattern matching for information extraction, however, has not been well investigated in spite of the importance in processing a large amount of text. This paper studies efficient pattern matching using Tomita's generalized LR parser known as one of the fastest practical parsers. Two different input formats to the parser, a morpheme (primitive word) format and bunsetsu format comprising a content word and following function words, are compared. Prom our experiments using newspaper articles of corporate joint ventures, the bunsetsu format is proved to be superior to the morpheme format in both processing speed and extraction accuracy. Furthermore, filtering out unnecessary words prior to pattern matching improves the parser's speed about twenty-three times faster compared to parsing the morpheme input without word filtering. Our proposed method applied to Tomita's generalized LR parser for information extraction raises pattern matching efficiency greatly.