著者
土屋 雅稔 肥田 新也 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2008, no.46, pp.1-6, 2008-05-15

統計的固有表現抽出のためには,固有表現がタグ付けされた十分な量の学習コーパスが必要である.しかし,新規の固有表現が増加し続けていることを考慮すると,あらゆる固有表現に対応した学習コーパスを用意することは非現実的である.本稿では,この問題に対処するために,固有表現がタグ付けされたコーパスとタグ付けされていないコーパスを併用して,タグ付けされたコーパスに頻出しない語 (非頻出語) を含む固有表現を抽出する手法を提案する.提案手法は 2 段階からなる.最初に,タグ付けされていない大量のコーパスを用いて,入力テキストに含まれている非頻出語を,その非頻出語と良く似た頻出語に対応付ける.次に,元々の語から得られる素性と頻出語から得られる素性の両方を組み合わせて学習した統計的固有表現抽出器によって,固有表現を抽出する.IREX コーパスと NHK コーパスを用いた実験により,提案手法は,非頻出語からなる固有表現の抽出において効果的であることを示す.This paper proposes a novel method to extract named entities including infrequent words which do not occur or occur few times in a training corpus using a large unannotated corpus. The proposed method consists of two steps. The first step is to assign the most similar and frequent word to each infrequent word based on their context vectors calculated from a large unannotated corpus. After that, traditional machine learning approaches are employed as the second step. The experiments of extracting Japanese named entities from IREX corpus and NHK corpus show the effectiveness of the proposed method.