- 著者
-
久光 徹
丹羽 芳樹
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告自然言語処理(NL)
- 巻号頁・発行日
- vol.1997, no.29, pp.1-6, 1997-03-21
- 被引用文献数
-
14
情報検索や情報抽出を目的として新聞記事のように開いたテキストを形態素解析する場合,解析誤りの主因の一つは,辞書に登録されていない,社名,人名,地名等の固有名詞の存在である.本報告では,人名辞書の拡充を目標とし,漢字・片仮名表記の未登録姓名を抽出しつつ,既登録であっても,姓・名に分類されていない固有名詞を,姓・名に分類する方法について述べる.大量の新聞記事からパターンマッチにより抽出した人名候補文字列の集合を長さの順にソートし,既存の辞書と文字列の大域的な出現状況を組み合わせて,姓・名の分割を行う.高い確度で姓または名と推定される文字列が獲得された場合は,その場で辞書に追加することにより,処理の進行とともに獲得精度の向上を図る.新聞記事1年分中,「さん」の前に現れる文字列から抽出した異なり数11,123の文字列を対象とし,約25,000個の人名を含む辞書を用いて行った抽出実験の結果,新たに姓・名893個を約95%の精度で獲得し,既登録の人名3725個の姓・名判別を,約99%の精度で行った.その過程で用いた,人名接辞獲得のための効果的な支援方法についても報告する.The majority of errors in Japanese morphological analysis is caused by unknown words, most of which consists of proper names such as company names, product names, person names and place names. This paper proposes a method of acquiring unregistered person names from newspaper articles. The method also distinguishes family names from given names. Character strings which are assumed to contain person names are first extracted by pattern matching and sorted in the order of their length. Then each of the strings is divided into a family name and a given name using a lexicon and co-occurrence analysis. A newly found word having enough evidence is immediately added into the dictionary, which increases the accuracy of the following analysis. In an experiment on 11.123 different strings, 893 names were newly acquired with 95.3% accuracy and 3725 registered names were distinguished as family names or given names with 98.5% accuracy. This paper also reports an effective method of acquiring suffixes for person names.